JP2012137680A - 状態検出装置、状態検出方法および状態検出のためのプログラム - Google Patents

状態検出装置、状態検出方法および状態検出のためのプログラム Download PDF

Info

Publication number
JP2012137680A
JP2012137680A JP2010291190A JP2010291190A JP2012137680A JP 2012137680 A JP2012137680 A JP 2012137680A JP 2010291190 A JP2010291190 A JP 2010291190A JP 2010291190 A JP2010291190 A JP 2010291190A JP 2012137680 A JP2012137680 A JP 2012137680A
Authority
JP
Japan
Prior art keywords
model
speaker
state
likelihood
specific speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010291190A
Other languages
English (en)
Other versions
JP5494468B2 (ja
Inventor
Shoji Hayakawa
昭二 早川
Naoji Matsuo
直司 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2010291190A priority Critical patent/JP5494468B2/ja
Priority to US13/253,683 priority patent/US8996373B2/en
Publication of JP2012137680A publication Critical patent/JP2012137680A/ja
Application granted granted Critical
Publication of JP5494468B2 publication Critical patent/JP5494468B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Telephonic Communication Services (AREA)

Abstract

【課題】負荷を抑えつつ、特定の話者の状態を精度よく検出する状態検出装置を提供する。
【解決手段】音声に含まれる情報を利用して特定の話者の状態を精度よく検出するために、状態検出装置に、非抑圧状態における特定の話者の音声の特徴をモデル化した第1の特定話者モデルを生成する第1のモデル生成手段と、対応関係情報に基づいて、第1の不特定話者モデルに対する第2の不特定話者モデルへの変位量を、第1の特定話者モデルに反映することにより、抑圧状態における特定の話者の音声の特徴をモデル化した第2の特定話者モデルを生成する第2のモデル生成手段と、入力音声の特徴に対する第1の特定話者モデルの尤度である第1の尤度と、入力音声に対する第2の特定話者モデルの尤度である第2の尤度と、を算出する尤度算出手段と、第1の尤度および第2の尤度に基づいて、入力音声の話者の状態を判別する状態判別手段と、を備える。
【選択図】図3

Description

本発明は、音声に含まれる情報を利用して音声の話者の状態を検出する状態検出装置、状態検出方法および状態検出のためのプログラムに関する。
従来、話者の音声から、話者の感情などを認識する技術がある。
上記技術に関連して、発声変形モデルの学習に用いる音声データが少量の場合でも高い認識性能をもつ発声変形音声認識装置が知られている。この発声変形音声認識装置は、発声変形が生じた音声に生じる音韻スペクトルの変形を表現する発声変形モデルを学習する。そして、発声変形音声認識装置は、発声変形のない発声変形なし音声標準モデルに対し、発声変形モデルを用いてスペクトルの変形処理を施して変形音声標準モデルを出力する。そして、発声変形音声認識装置は、変形音声標準モデルと発声変形なし音声標準モデルとを用いて、入力音声信号に対し音響分析を行って得た発声変形音声特徴ベクトル時系列に対し認識処理を行う。
また、話者の感情のレベルを認識する音声認識システムが知られている。この音声認識システムは、例えば、音声分析部と、単語辞書部と、音響モデル部と、発声変形感情モデル部と、音声感情認識部と、を備える。そして、単語辞書部は、音声認識の対象となる単語を記憶する。音響モデル部は、音声認識に用いられるモデル、具体的には、単語辞書部に用いられている文字と音素との対応を示す音響モデルを記憶する。発声変形感情モデル部は、感情が変化したときの単語辞書部に用いられている文字と音素との対応を示す発声変形感情モデルを記憶する。音声感情認識部は、音素単位の単語および感情の度合いを示すレベルを記憶する。
そして、音声認識システムは、音声分析部で分析された入力音声の音声分析結果に対して、音響モデルと単語辞書をモデル連結部によって連結された音素単位で照合して、単語辞書部に登録した単語辞書の中で一番近い単語をピックアップする。さらに、音声認識システムは、ピックアップされた単語の入力音声が持っている感情の度合いを示すレベルを音声感情認識部から選択する。
また、雑音適応と話者適応とを施した合成音声モデルと、発話時の発話音声より求まる特徴ベクトル系列と、を照合して音声認識を行う音声認識装置において、初期音声モデルに対して雑音適応および話者適応等を行う際の処理量を低減できる音声認識装置が知られている。
特開平08−211887号公報 特開平11−119791号公報 特開2004−109464号公報
鹿野清宏/伊藤克亘/河原達也/武田一哉/山本幹雄著、「音声認識システム」オーム社 宮本定明著、「クラスタ分析入門」森北出版 Douglas A.Reynolds/Richard C.Rose,"Robust text−independent speaker identification using Gaussian mixture speader models",IEEE Trans. on Speech and Audio Process.,vol.3,no.1,pp.72−83 1995 Douglas A.Reynolds/Thomas F.Quatieri/Robert B.Dunn,"Speaker verification using adapted Gaussian Mixture models",Digital Signal Processing,vol.10,pp.19−41 2000
しかし、例えば、上述した発声変形音声認識装置では、変形音声標準モデルと発声変形なし音声標準モデルとを用いて認識処理を行っているが、発声変形なし音声標準モデルは特定の話者に特化したモデルではない。したがって、発声変形なし音声標準モデルから作成される変形音声標準モデルも十分に特定の話者に特化したモデルとは言い難い。そのため、特定の話者に特化した変形音声標準モデルおよび発声変形なし音声標準モデルを使用する場合と比較すると認識率が低かった。
また、上述した音声認識システムでは、発声変形感情モデルや音素単位の単語および感情の度合いを示すレベルなどが、特定の話者に特化したものではないため、特定の話者についての感情のレベルの認識性能が低かった。
本状態検出装置は、上述した問題に鑑みてなされたものであり、その解決しようとする課題は、本状態検出装置にかかる負荷を抑えつつ、特定の話者の状態を精度よく検出することである。
本状態検出装置の1つの観点によれば、本状態検出装置は、以下の構成要素を備える。
基本モデル記憶手段は、複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを記憶するための記憶手段である。
対応関係情報記憶手段は、第1の不特定話者モデルと第2の不特定話者モデルとの対応関係を示す対応関係情報を記憶するための記憶手段である。前記第1の不特定話者モデルは、非抑圧状態における不特定の話者の音声の特徴をモデル化した情報である。前記第2の不特定話者モデルは、抑圧状態における不特定の話者の音声の特徴をモデル化した情報である。
第1のモデル生成手段は、前記非抑圧状態における特定の話者の音声の特徴を抽出し、該抽出した特徴を示すように前記基本モデルを調整することにより、前記非抑圧状態における前記特定の話者の音声の特徴をモデル化した第1の特定話者モデルを生成する。
第2のモデル生成手段は、前記対応関係情報に基づいて、前記第1の不特定話者モデルに対する前記第2の不特定話者モデルへの変位量を、前記第1の特定話者モデルに反映する。これにより、第2のモデル生成手段は、前記抑圧状態における前記特定の話者の音声の特徴をモデル化した第2の特定話者モデルを生成する。
尤度算出手段は、入力音声の特徴に対する前記第1の特定話者モデルの尤度である第1の尤度と、前記入力音声に対する前記第2の特定話者モデルの尤度である第2の尤度と、を算出する。
状態判別手段は、前記第1の尤度および前記第2の尤度に基づいて、前記入力音声の話者の状態を判別する。
本状態検出装置によると、本状態検出装置にかかる負荷を抑えつつ、特定の話者の状態を精度よく検出することができる。
発明者が検討した状態検出装置の概要を説明する図である。 発明者が検討した状態検出装置の概要を説明する図である。 状態検出装置300を説明する図である。 状態検出装置400を説明する図である。 対応関係表431の具体例を示す図である。 特定話者向け平静状態モデルおよび特定話者向け異常状態モデルの作成について説明する図である。 話者の登録時の処理を示すフローチャートである。 話者の状態検出の処理を示すフローチャートである。 事前準備の概要を説明する図である。 図9に示した事前準備で行われる処理の概要を説明する図である。 事前準備の処理を示すフローチャートである。 状態検出装置1200を説明する図である。 状態検出装置1200の動作を示すフローチャートである。 状態検出装置1200の動作を示すフローチャートである。 実施例で説明した状態検出装置の構成例を示す図である。 実施例で説明した状態検出装置を含む携帯電話1600の構成例を示す図である。
1.発明者による考察
図1および図2は、発明者が検討した状態検出装置の概要を説明する図である。
図1に示す状態検出装置100は、基本モデルを記憶する記憶部110と、特定話者向け平静状態モデルを記憶する記憶部120と、特定話者向け異常状態モデルを記憶する記憶部130と、音声分析部140と、尤度計算部150と、尤度比較部160と、を備える。
なお、図1では、状態検出装置100の理解を容易にするために、「事前準備」、「話者の登録」および「話者の状態検出」の処理毎に、使用する装置を記載しているが、状態検出装置100の構成、例えば、装置の配置や装置間の接続などを限定する趣旨ではない。図2も同様の趣旨である。
記憶部110に記憶される基本モデルは、標準的な話者の音声の特徴を表す情報である。この基本モデルは、不特定話者から採取した大量の音声データから抽出した特徴パラメータをGaussian Mixture Model(ガウス混合モデル、以下「GMM」という)を用いて定量化したモデルで表される。基本モデルは、あらかじめ作成されて記憶部110に保持される。なお、特徴パラメータの詳細については、図7で後述する。
また、記憶部120に記憶される特定話者向け平静状態モデルは、平静状態にある特定話者から採取した音声データから抽出できる特徴パラメータをGMMを用いて定量化した情報である。
また、記憶部130に記憶される特定話者向け異常状態モデルは、異常状態にある特定話者から採取した音声データから抽出できる特徴パラメータをGMMを用いて定量化した情報である。
状態検出装置100は、状態検出を行うために、状態検出の対象となる話者の登録が必要となる。この話者の登録によって、状態検出装置100は、特定話者向け平静状態モデルと特定話者向け異常状態モデルを作成する。
例えば、状態検出装置100の利用者が、平静状態時における話者Fの発話データ101と、異常状態時における話者Fの発話データ102と、を状態検出装置100に登録する。すると、状態検出装置100は、平静状態時における話者Fの発話データ101に、基本モデルを適応させて、話者Fについての特定話者向け平静状態モデルを作成する。そして、状態検出装置100は、作成した特定話者向け平静状態モデルを記憶部120に記憶する。
なお、「適応」するとは、基本モデルに含まれるパラメータを、平静状態時における話者Fの発話データ101から抽出される特徴パラメータから求められるパラメータで調整することをいう。
さらに、状態検出装置100は、異常状態における話者Fの発話データ102に、話者Fについての特定話者向け平静状態モデルを適応させて、話者Fについての特定話者向け異常状態モデルを作成する。そして、状態検出装置100は、作成した特定話者向け異常状態モデルを記憶部130に記憶する。
話者の登録が完了すると、状態検出装置100は、以下のようにして、話者Fの状態を検出する。
例えば、話者Fの発話データが入力されると、音声解析部140は、話者Fの発話データから特徴パラメータを抽出する。すると、尤度計算部150は、抽出した特徴パラメータに対する、話者Fについての特定話者向け平静状態モデルの尤度を算出する。さらに、尤度計算部150は、抽出した特徴パラメータに対する、話者Fについての特定話者向け異常状態モデルの尤度を算出する。
尤度比較部160では、尤度計算部150で算出した2つの尤度を比較して、話者Fの状態、すなわち、話者Fが平静状態か異常状態か、を判別する。尤度比較部160は、判別結果を所定の装置等に出力する。
以上のように、状態検出装置100では、話者の登録時に、特定話者向け平静状態モデルと特定話者向け異常状態モデルとを作成するため、状態検出機能を使用するための事前準備を必要としない。なお、事前準備とは、状態検出装置100が状態検出を行うために、例えば、状態検出装置100または状態検出装置100を含む装置を製品として出荷する前に必要となる準備である。
また、状態検出装置100は、特定話者向け平静状態モデルおよび特定話者向け異常状態モデルを用いて話者の状態検出を行うので、特定話者の状態を高い精度で検出することができる。
しかし、異常状態における特定の話者の音声を登録するのは、利用者にとって大きな負荷となる。
図2に示す状態検出装置200は、不特定話者向け平静状態モデルを記憶する記憶部210と、不特定話者向け異常状態モデルを記憶する記憶部220と、音声分析部140と、尤度計算部230と、尤度比較部160と、を備える。
記憶部210に記憶される不特定話者向け平静状態モデルは、平静状態にある多数の不特定の話者から採取した音声データから抽出できる特徴パラメータをGMMを用いて定量化した情報である。
また、記憶部220に記憶される不特定話者向け異常状態モデルは、異常状態にある多数の不特定話者から採取した音声データから抽出できる特徴パラメータをGMMを用いて定量化した情報である。
状態検出装置200は、状態検出を行うために、事前準備が必要となる。この事前準備では、状態検出に使用する不特定話者向け平静状態モデルおよび不特定話者向け異常状態モデルが作成される。
事前準備は、状態検出装置200と直接または間接的にデータの授受が可能な情報処理装置250によって行うことができる。ただし、状態検出装置200自身が事前準備を行ってもよい。
情報処理装置250は、基本モデルを記憶する記憶部251と、不特定話者向け平静状態モデルを記憶する記憶部252と、不特定話者向け異常状態モデルを記憶する記憶部253と、を備える。
そして、情報処理装置250は、多数の平静状態話者データ254に、基本モデルを適応させることにより不特定話者向け平静状態モデルを作成する。情報処理装置250は、作成した不特定話者向け平静状態モデルを記憶部252に記憶する。また、情報処理装置250は、多数の異常状態発話データ255に、不特定話者向け平静状態モデルを適応させることにより不特定話者向け異常状態モデルを作成する。情報処理装置250は、作成した不特定話者向け異常状態モデルを記憶部253に記憶する。
なお、平静状態話者データ254は、平静状態にある不特定の話者から採取した音声データである。異常状態発話データ255は、異常状態にある不特定の話者から採取した音声データである。
不特定話者向け平静状態モデルと不特定話者向け異常状態モデルを作成すると、情報処理装置250は、記憶部252に記憶されている不特定話者向け平静状態モデルを、状態検出装置200に備わる記憶部210に記憶する。また、情報処理装置250は、記憶部253に記憶されている不特定話者向け異常状態モデルを、状態検出装置200に備わる記憶部220に記憶する。
以上の事前準備が完了すると、状態検出装置200は、状態検出が可能になる。状態検出装置200は、以下のようにして、話者の状態を検出する。
例えば、話者Fの発話データが入力されると、音声分析部140は、話者Fの発話データから特徴パラメータを抽出する。すると、尤度計算部230は、抽出した特徴パラメータに対する、不特定話者向け平静状態モデルの尤度を算出する。さらに、尤度計算部230は、抽出した特徴パラメータに対する、不特定話者向け異常状態モデルの尤度を算出する。
尤度比較部160では、尤度計算部230で算出した2つの尤度を比較して、話者Fの状態、すなわち、話者Fが平静状態か異常状態か、を判別する。尤度比較部160は、判定結果を所定の装置等に出力する。
以上のように、状態検出装置200では、事前に、不特定話者向け平静状態モデルと不特定話者向け異常状態モデルとを作成しておく。そして、状態検出装置200は、不特定話者向け平静状態モデルと不特定話者向け異常状態モデルを用いて話者の状態を検出する。そのため、状態検出装置200は、状態検出装置100で必要となる話者の登録が不要となる。その結果、話者の登録によって状態検出装置200に大きな負荷がかかることがなくなる。
しかし、状態検出装置200は、話者の状態検出に、不特定話者向け平静状態モデルと不特定話者向け異常状態モデルとを使用するため、状態検出装置100と比較して、特定話者の状態を検出する精度が非常に低くなってしまう。
以上に説明した考察から、発明者は、話者の登録など話者の状態検出に必要な処理にかかる負荷を抑えつつ、音声に含まれる情報を利用して特定の話者の状態を精度よく検出できる状態検出装置の提供を課題として抽出した。
2.実施例の説明
以下、本実施形態の一例について、図3〜図16に基づいて説明する。なお、以下に説明する実施形態はあくまでも例示であり、以下に明示しない種々の変形や技術の適用を排除する意図ではない。すなわち、本実施形態は、その趣旨を逸脱しない範囲で、種々変形して実施することができる。
図3は、本実施例に係る状態検出装置300を説明する図である。
状態検出装置300は、基本モデル記憶手段301と、対応関係情報記憶手段302と、第1のモデル生成手段303と、第2のモデル生成手段304と、尤度算出手段305と、状態判別手段306と、を備える。
基本モデル記憶手段301は、複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを記憶するための記憶装置である。基本モデルは、例えば、GMMなどを用いて定義することができる情報である。
対応関係情報記憶手段302は、第1の不特定話者モデルと第2の不特定話者モデルとの対応関係を示す対応関係情報を記憶するための記憶装置である。第1の不特定話者モデルは、非抑圧状態における不特定の話者の音声の特徴をモデル化した情報である。また、第2の不特定話者モデルは、抑圧状態における不特定の話者の音声の特徴をモデル化した情報である。第1の不特定話者モデルおよび第2の不特定話者モデルは、例えば、GMMなどを用いて定義することができる情報である。したがって、第1の不特定話者モデルと第2の不特定話者モデルとの対応関係は、例えば、GMMに含まれるパラメータによって表すことができる。 第1のモデル生成手段303は、非抑圧状態における特定の話者の音声の特徴を抽出し、抽出した特徴を示すように基本モデルを調整することにより、非抑圧状態における特定の話者の音声の特徴をモデル化した第1の特定話者モデルを生成する。例えば、第1のモデル生成手段303は、非抑圧状態における特定の話者の音声の特徴を示すように、基本モデルに含まれるパラメータを調整する。
第2のモデル生成手段304は、対応関係情報に基づいて、第1の不特定話者モデルに対する第2の不特定話者モデルへの変位量を、第1の特定話者モデルに反映する。これにより、第2のモデル生成手段304は、抑圧状態における特定の話者の音声の特徴をモデル化した第2の特定話者モデルを生成する。例えば、第2のモデル生成手段304は、第1の不特定話者モデルに含まれるパラメータ対する、第2の不特定話者モデルに含まれるパラメータへの変位量を、第1の特定話者モデルに含まれるパラメータに反映する。
尤度算出手段305は、入力音声の特徴に対する第1の特定話者モデルの尤度である第1の尤度と、入力音声に対する第2の特定話者モデルの尤度である第2の尤度と、を算出する。
状態判別手段306は、第1の尤度および第2の尤度に基づいて、入力音声の話者の状態を判別する。
以上のように、状態検出装置300は、非抑圧状態における特定の話者の音声から、非抑圧状態における特定の話者の音声の特徴をモデル化した第1の特定話者モデルを生成する。そして、状態検出装置300は、対応関係情報に基づいて、第1の特定話者モデルから、抑圧状態における特定の話者の音声の特徴をモデル化した第2の特定話者モデルを生成する。
このように、状態検出装置300は、特定の話者に特化した第1の特定話者モデルと、その第1の特定話者モデルから生成した特定話者向け異常状態モデルと、を使用して、入力音声の状態を判別する。その結果、状態検出装置300は、特定の話者についての状態検出を高い精度で行うことができる。
また、状態検出装置300は、対応関係情報に基づいて、第1の特定話者モデルから第2の特定話者モデルを生成するので、抑圧状態における特定の話者の音声から第2の特定話者モデルを生成する必要がなくなる。その結果、状態検出装置300は、利用者の音声登録時にかかる負荷を抑えることができる。
その他の実施例1
図4は、本実施例に係る状態検出装置400を説明する図である。
状態検出装置400は、記憶部410〜440と、平静状態モデル作成部450と、異常状態モデル作成部460と、特徴パラメータ抽出部470と、尤度計算部480と、尤度比較部490と、を備える。
なお、図4では、状態検出装置400が行う処理の理解を容易にするために、「話者の登録」および「話者の状態検出」の処理毎に、使用する装置を記載しているが、状態検出装置400の構成を、例えば、装置の配置や装置間の接続などを限定する趣旨ではない。また、図4では、記憶部410〜440を異なる記憶部として記載しているが、記憶部410〜440を1つの記憶部で実現してもよいのは当然である。
記憶部410は、あらかじめ作成された基本モデルを記憶する記憶装置である。基本モデルは、不特定の話者から採取した大量の発声データから抽出した特徴パラメータをGMMを用いて定量化したモデルである。
本実施例では、特徴パラメータとして、音声波形に含まれる非言語情報を用いる。非言語情報とは、音声波形に含まれる言語認識に必要な情報以外の情報をいう。例えば、話者が音声を発する時に生じるパルス信号に関連する情報や、話者が音声を発する時に生じるパルス信号の時間変化に関連する情報、などを特徴パラメータとして使用することができる。ただし、特徴パラメータとして、音声波形に含まれる言語認識に必要な情報を使用することを排除する趣旨ではない。
話者が音声を発する時に生じるパルス信号に関連する情報として、話者の音声データについてのLPC残差信号から求まる対数LPC残差パワーを使用することができる。また、話者が音声を発する時に生じるパルス信号の時間変化に関連する情報として、話者の音声データについてのLPC残差信号から求まるΔ対数LPC残差パワーを使用することができる。
なお、本実施例では、特徴パラメータとして、対数LPC残差パワーとΔLPC残差パワーを使用するが、特徴パラメータを対数LPC残差パワーとΔLPC残差パワーに限定する趣旨ではない。特徴パラメータは、話者の音声波形に含まれる非言語情報であればよい。
例えば、特徴パラメータとして、音声の抑揚に関連する情報を使用することもできる。これは、話者は、リラックスした状態では抑揚をつけて発話するが、ストレスを感じた状態では無意識に抑揚を抑えて発話する、という傾向を特徴として利用するものである。音声の抑揚に関連する情報として、話者の音声データから求められるピッチ周波数幅を使用することができる。
また、特徴パラメータとして、音声の大きさに関する情報を使用することもできる。これは、話者にストレスがかかると声帯へのエネルギー供給が弱くなる傾向を特徴として利用するものである。音声の大きさに関する情報として、高周波数域におけるLPC残差スペクトルについての平坦さを数値化した値、例えば、幾何平均や算術平均を使用することができる。
記憶部420は、特定の話者の平静状態での音声の特徴を表す特定話者向け平静状態モデルを記憶する記憶装置である。また、記憶部440は、特定の話者の異常状態での音声の特徴を表す特定話者向け異常状態モデルを記憶する記憶装置である。
なお、平静状態とは、異常状態を判別するための基準の状態である。例えば、平静状態の音声には、状態検出装置400の利用者等が平静状態と判断した状態で発した音声を利用することができる。したがって、異常状態の音声には、状態検出装置400の利用者等が平静状態と判断した状態と異なる状態で発した音声を利用することができる。
記憶部430は、不特定話者向け平静状態モデルと不特定話者向け異常状態モデルとの対応関係を示す対応関係表431を記憶する記憶装置である。本実施例に係る対応関係表431には、GMMに含まれるパラメータのうち、平均値と分散を使用する。したがって、対応関係表431には、不特定話者向け平静状態モデルと不特定話者向け異常状態モデルとを対比した場合における、平均値の移動量と、分散値の変化量と、を分布毎に記憶した情報が含まれる。
ここで、対応関係表431は、不特定話者向け平静状態モデルから不特定話者向け異常状態モデルへの変位量を示す情報である。したがって、対応関係表431に示す変位量を利用して、特定話者向け平静状態モデルから特定話者向け異常状態モデルを簡単に類推することができる。
例えば、対応関係表431を利用し、特定話者向け平静状態モデルにおける、分布番号#1、#2、・・・の分布の平均値をμ’、μ’、・・・だけ調整し、分布の分散をσ、σ、・・・だけ調整すると、特定話者向け異常状態モデルを得ることができる。
なお、本実施例では、対応関係表431に、GMMに含まれるパラメータのうち、平均値と分散を使用しているが、例えば、対応関係表431には、GMMに含まれるパラメータの一つである分布の重みの変化量を含むこともできる。
(話者の登録)
以下、話者の登録時の状態検出装置400の動作の概要を説明する。
例えば、話者Fの平静状態時の発話データが入力されると、平静状態モデル作成部450は、話者Fの平静状態時の発話データに、基本モデルを適応させて話者Fについての特定話者向け平静状態モデルを作成する。そして、平静状態モデル作成部450は、作成した特定話者向け平静状態モデルを記憶部420に記憶する。
さらに、異常状態モデル作成部460は、話者Fについての特定話者向け平静状態モデルに含まれるパラメータのうち、平均値と分散を、対応関係表431にしたがって調整することにより、話者Fについての特定話者向け異常状態モデルを作成する。そして、異常状態モデル作成部460は、作成した特定話者向け異常状態モデルを記憶部440に記憶する。以上で、話者Fの登録が完了する。
(話者の状態検出)
以下、話者の状態検出時の状態検出装置400の動作を説明する。
例えば、話者Fの発話データが入力されると、特徴パラメータ抽出部470は、入力された話者Fの発話データから特徴パラメータを抽出する。すると、尤度計算部480は、記憶部420から話者Fについての特定話者向け平静状態モデルを読み出す。そして、尤度計算部480は、特徴パラメータ抽出部470が抽出した特徴パラメータに対する、話者Fについての特定話者向け平静状態モデルの尤度を計算する。同様に、尤度計算部480は、記憶部440から話者Fについての特定話者向け異常状態モデルを読み出す。そして、尤度計算部480は、特徴パラメータ抽出部470が抽出した特徴パラメータに対する、話者Fについての特定話者向け異常状態モデルの尤度を計算する。
尤度比較部490は、尤度計算部480が算出した2つの尤度を比較して、話者Fの状態、すなわち、話者Fが平静状態か異常状態か、を判別する。そして、尤度比較部490は、判別結果を所定の装置等に出力する。以上で、話者Fの状態検出が完了する。
図5は、本実施例に係る対応関係表431の具体例を示す図である。
対応関係表431は、GMMに含まれる分布毎の、平均値の移動量と、分散値の変化量と、を含んでいる。なお、図5に示す対応関係表431は、平均値と分散値が2次元の場合について例示しているが、平均値や分散値が2次元である場合に対応関係表431を限定する趣旨ではない
平均値の移動量は、不特定話者向け平静状態モデルと不特定話者向け異常状態モデルとを比較した場合における、不特定話者向け平静状態モデルの平均値から、不特定話者向け異常状態の平均値への移動量を示している。また、分散の変化量は、不特定話者向け平静状態モデルと不特定話者向け異常状態モデルとを比較した場合における、不特定話者向け平静状態モデルの分散から、不特定話者向け異常状態の分散への変化量を示している。
図6は、本実施例に係る特定話者向け平静状態モデルおよび特定話者向け異常状態モデルの作成について説明する図である。なお、図6に記載の(1)および(2)は、下記(1)および(2)に対応する。また、座標601および602の#1〜#3は、分布番号を示す。
(1)特定話者向け平静状態モデルの作成
例えば、基本モデルが、座標601に示す点線で囲われた分布aで表されるものとする。話者Fの平静状態発話データが入力されると、平静状態モデル作成部450は、話者Fの平静状態発話データから特徴パラメータを抽出する。抽出した特徴パラメータに含まれる特徴量ベクトルは、例えば、座標601に示す●印のような分布を示す。なお、特徴量ベクトルの詳細については、図7で後述する。
平静状態モデル作成部450は、話者Fの平静状態発話データから抽出した特徴パラメータを用いて基本モデルにBayesian適応を行うことにより、話者Fについての特定話者向け平静状態モデルを推定する。このBayesian適応については、例えば、非特許文献3などで公知となっている。Bayesian適応により、基本モデルの分布aから、話者Fについての特定話者向け平静状態モデルの分布、例えば、座標601に示す実線で囲われた分布bがモデルとして推定される。
(2)特定話者向け異常状態モデルの作成
話者Fについての特定話者向け平静状態モデルの推定が完了すると、異常状態モデル作成部460は、対応関係表431にしたがって、話者Fについての特定話者向け平静状態モデルを表すGMMに含まれるパラメータのうち、平均値と分散を調整する。これにより、話者Fについての特定話者向け平静状態モデルから、話者Fについての特定話者向け異常状態モデルの分布、例えば、座標602に示す一点破線で囲われた分布cが推定される。
例えば、座標602の分布#1を見ると、分布bの平均値が、対応関係表431にしたがって、x1方向に−0.5だけ調整され、x2方向に0.1だけ調整される。また、分布bの分散が、対応関係表431にしたがって、x1方向に−0.02だけ調整される。その結果、分布bから分布cのような分布が得られる。
なお、図6では、説明を簡単にするために、特徴量ベクトルが2次元の場合について説明したが、特徴量ベクトルを2次元の場合に限定する趣旨ではない。また、図6では、分布#1〜#3の3つの分布だけを示しているが、これは例示であって、分布が3つの場合に限定する趣旨ではない。
(話者の登録時の具体的な処理)
図7は、本実施例に係る話者の登録時の処理を示すフローチャートである。
利用者が、状態検出装置400に備わる入力装置等を介して所定の操作を行うと、状態検出装置400は、以下の処理を開始する(ステップS700)。
ステップS701において、状態検出装置400は、利用者の指示にしたがって、状態検出装置400に備わるマイク等から取得した話者の音声をデジタル化して発話データを生成する。そして、状態検出装置400は、生成した発話データをストレージ等に記憶する。
ステップS702において、状態検出装置400は、ステップS701で生成した発話データから特徴パラメータXを抽出する。特徴パラメータXは、例えば、非特許文献1の1.2節にしたがって、以下のようにして抽出することができる。
まず、状態検出装置400は、ステップS701で生成した発話データをフレーム化する。このフレーム化の処理において、状態検出装置400は、発話データの信号系列から、あらかじめ決められたフレーム長Nの区間毎に信号を取り出す。このとき、状態検出装置400は、ある区間と次の区間とが一定期間だけオーバーラップするように、フレームシフト長Tだけシフトして次の区間を決定する。例えば、フレーム長Nには20〜40ms程度の値が、フレームシフト長Tには10〜20ms程度の値を用いることができる。
次に、状態検出装置400は、次式にしたがって、フレーム化した発話データの信号系列S(n)と、分析窓と呼ばれる重みと、の積を算出して、信号系列S(m;l)を求める。分析窓としては、ハミング窓w(l)を用いることができる。
なお、状態検出装置400が式にしたがって演算を行うという場合、例えば、後述するDSP1501が、その式に応じたアルゴリズムを含むプログラム命令にしたがって、メモリ上に展開されたデータを操作・変更して所定の演算結果を生成することを意味する。
・・・ (1)
ここで、ハミング窓w(n)は、次式で表すことができる。
・・・ (2)
上記式(1)において、添え字lは、信号の取り出し位置に対応している。したがって、lをフレームシフト長Tの間隔で増加させることにより、フレーム長Nのフレーム化された信号系列S(n)(n=0,1,...,N−1)が得られる。
次に、状態検出装置400は、フレーム化された信号系列列S(n)から、特徴パラメータを抽出する。本実施例では、話者が発声する時に検出されるパルス信号の強さと、話者が発声する時に検出されるパルス信号の時間変化と、に関連する関連するパラメータを、特徴パラメータとして抽出する。
以下では、話者が発声する時に検出されるパルス信号の強さに関連するパラメータとして対数LPC残差パワー、話者が発声する時に検出されるパルス信号の時間変化と関連するパラメータとしてΔ対数LPC残差パワーを使用する場合について説明する。なお、LPC残差信号は、非特許文献1の1.2.2節の記載を利用して求めることができる。
今、音声を全極型の伝達関数で規定する場合の線形予測係数をa(i=1,2,・・・,p)とする。この線形予測計数aは、Levinson−Durbin法などの公知の手法により求めることができる。
線形予測係数aの計算が完了すると、状態検出装置400は、次式にしたがって、過去のp個のサンプルからS(n)の推定値を算出する。
・・・ (3)
LPC残差信号e(n)は、式(3)で求めた推定値と、実際に観測された音声から求めたS(n)と、の差によって求めることができる。したがって、状態検出装置400は、次式にしたがって、LPC残差信号e(n)を算出する。
・・・ (4)
そして、状態検出装置400は、フレームlにおけるLPC残差信号の対数パワー、すなわち、フレームlにおける対数LPC残差パワーを、次式にしたがって算出する。
・・・ (5)
また、状態検出装置400は、Δ対数LPC残差パワーを、次式にしたがって算出する。
・・・ (6)
なお、Δは動的特徴と呼ばれ、対数パワーの時間軸に沿った変化の回帰係数として求めることができる。例えば、非特許文献1の1.3.1節の(1・21)では、回帰係数としてケプストラム係数を求める例が記載されている。なお、本実施例に係る特徴パラメータには、対数LPC残差パワーの変化量の大きさを使用するために、右辺の分子では絶対値をとっている。
以上のようにして求めた2つのパラメータ、すなわち、フレームlにおける対数LPC残差パワーおよびΔ対数LPC残差パワーは、2次元ベクトルXを用いて表すことができる。このベクトルXを「特徴量ベクトル」という。また、特徴量ベクトルの系列全体を指して「特徴パラメータX」という。
特徴パラメータXの抽出が完了すると、状態検出装置400は、処理をステップS703に移行する。
ステップS703において、状態検出装置400は、話者Fについての特定話者向け平静状態モデルを作成する。本実施例に係る特定話者向け平静状態モデルは、GMMを用いて表すことができる。したがって、ステップS703では、話者Fについての特定話者向け平静状態モデルに含まれるモデルパラメータλcalm_userを、以下のように求める。
ステップS702において、話者Fの平静状態の発話データからTcalm_user個のフレームを生成したとする。この場合、状態検出装置400は、次式にしたがって、ステップS702で求めた特徴パラメータに対する、Bayesian適用に対応する確率的な意味でのフレーム数を算出する。λgenは後述するGMMの基本パラメータである。またKはGMMを構成する正規分布の個数を表す。
・・・ (7)
また、状態検出装置400は、次式にしたがって、一次モーメントを算出する。
・・・ (8)
また、状態検出装置400は、次式にしたがって、二次モーメントを算出する。
・・・ (9)
ここで、データ依存の適応係数α1,i ρ、ρ={w,m,v}は、「Bayesian factor」と呼ばれる適応の度合いを調整するパラメータγを用いて、次式で求められる。なお、ρは、ガウス密度関数の重み(w)、平均値(m)または分散(v)を表すインデックス(添え字)であり、数値ではない。
・・・ (10)
そこで、状態検出装置400は、次式にしたがって、GMMに含まれるモデルパラメータ、すなわち、GMMに含まれる各ガウス密度関数の重みp1,i,平均値μ1,iおよび分散σ1,i を算出する。
・・・ (11)
・・・ (12)
・・・ (13)
なお、γは、GMMに含まれる全てのガウス密度関数の重みp1,iの総和が1.0となるように補正するスケールファクタ定数である。このスケールファクタ定数γは、次式で求めることができる。
・・・ (14)
状態検出装置400は、以上の計算を1度だけ行うことで、話者Fについての特定話者向け平静状態モデルのモデルパラメータλcalm_userを算出することができる。
・・・ (15)
以上の処理によって、話者Fについての特定話者向け平静状態モデルが作成される。
話者Fについての特定話者向け平静状態モデルの作成が完了すると、状態検出装置400は、話者Fについての特定話者向け平静状態モデルのモデルパラメータλcalm_userを記憶部420に記憶する。そして、状態検出装置400は、処理をステップS704に移行する。
ステップS704において、状態検出装置400は、対応関係表431にしたがって、ステップS703で求めた話者Fについての特定話者向け平静状態モデルのモデルパラメータλcalm_userを補正して、話者Fについての特定話者向け異常状態モデルを作成する。状態検出装置400は、次式にしたがって、話者Fについての特定話者向け異常状態モデルのモデルパラメータλabn_userに含まれる平均値‘μ1,iおよび分散‘σ1,i を算出する。なお、本実施例では、モデルパラメータλabn_userに含まれる重み‘p1,iには、ステップS703で求めたモデルパラメータλcalm_userに含まれるp1,iを使用する。
状態検出装置400は、次式にしたがって、平均値‘μ1,iを算出する。
・・・ (16)
また、状態検出装置400は、
・・・ (17)
ならば、次式にしたがって、分散‘σ1,i を算出する。
・・・ (18)
また、状態検出装置400は、
・・・ (19)
ならば、次式にしたがって、分散‘σ1,i を算出する。
・・・ (20)
ここで、例えば、β=0.1とすることができる。これは、特定話者向け正常状態モデルの分散に対する特定話者向け異常状態モデルの分散の減少幅を、特定話者向け平静状態モデルの分散の10分の1程度にまでに抑えるためである。これにより、特定の数値に対して非常に確率が高くなる過学習の状態になるのを防ぐことができる。
以上の処理によって、状態検出装置400は、話者Fについての特定話者向け異常状態モデルのモデルパラメータλabn_userを求める。したがって、話者Fについての特定話者向け異常状態モデルが作成されたことになる。
・・・ (21)
なお、本実施例では、特定話者向け異常状態モデルの分布の重み‘pには、特定話者向け平静状態モデルの分散の重みをそのまま使用する。ただし、特定話者向け異常状態モデルの分布の重み‘pは、次式のように、不特定話者向け平静状態モデルの分布の重みp2,iから不特定話者向け異常状態モデルの分布の重みp3,iへの変化量を使って補正することもできる。不特定話者向け平静状態モデルの分布の重みp2,iおよび不特定話者向け異常状態モデルの分布の重みp3,iについては、図11で後述する。
・・・ (22)
この場合、負の重みは意味がないので、‘p≦0のときは‘p=0とする。
以上の処理が終了すると、状態検出装置400は、話者Fの特定話者向け異常状態モデルのモデルパラメータλabn_userを記憶部440に記憶する。そして、状態検出装置400は、話者の登録時の処理を終了する(ステップS705)。
(話者の状態検出時の具体的な処理)
図8は、本実施例に係る話者の状態検出の処理を示すフローチャートである。
ステップS801において、状態検出装置400は、利用者の指示にしたがって、状態検出装置400に備わるマイク等から取得した話者Fの音声をデジタル化して発話データを生成する。そして、状態検出装置400は、生成した発話データをストレージ等に記憶する。
ステップS802において、状態検出装置400は、ステップS801で生成した発話データから特徴パラメータXを抽出する。特徴パラメータXの抽出は、図7のステップS702で説明した処理と同様の処理によって行うことができる。したがって、特徴パラメータXの抽出についての説明は省略する。
ステップS803において、状態検出装置400は、次式にしたがって、ステップS802で抽出した特徴パラメータXの、ユーザFの特定話者向け平静状態モデルに対する平均対数尤度L(X|λcalm_user)を算出する。
・・・ (23)
ステップS804において、状態検出装置400は、次式にしたがって、ステップS802で抽出した特徴パラメータXの、ユーザFの特定話者向け異常状態モデルに対する平均対数尤度L(X|λabn_user)を算出する。
・・・ (24)
ステップS805において、状態検出装置400は、次式にしたがって、ステップS803で算出した平均対数尤度L(X|λcalm_user)と、ステップS804で算出した平均対数尤度L(X|λabn_user)と、の比、すなわち、尤度比Λ(X)を算出する。
・・・ (25)
ステップS805で算出した尤度比Λ(X)が閾値TH1未満の場合(ステップS806 NO)、状態検出装置400は、話者Fが異常状態にあると判定する(ステップS807)。この場合、状態検出装置400は、話者Fが異常状態にある旨の判定結果を所定の装置に出力する。また、ステップS805で算出した尤度比Λ(X)が閾値TH1以上の場合(ステップS806 YES)、状態検出装置400は、話者Fが平静状態にあると判定する(ステップS808)。この場合、状態検出装置400は、話者Fが正常状態にある旨の判定結果を所定の装置に出力する。
以上の処理が終了すると、状態検出装置400は、話者の状態検出の処理を終了する(ステップS809)。
(事前準備)
本実施例に係る状態検出装置400を用いて話者の状態検出を行うには、所定の事前準備を行う必要がある。この事前準備では、状態検出に使用する対応関係表431が作成される。
事前準備は、状態検出装置400とデータの授受が可能な情報処理装置900によって行うことができる。この場合、情報処理装置900は、ネットワークや専用回線で装置間を接続して直接データの授受を行ってもよいし、記憶媒体を介してデータの授受を行ってもよい。ただし、状態検出装置200自身が事前準備を行ってもよい。
以下では、事前準備について、図9および図10を参照しながら説明する。
図9は、本実施例に係る事前準備の概要を説明する図である。また、図10は、図9に示す事前準備で行われる処理の概要を説明する図である。なお、以下に記載する(1)〜(5)は、図9に記載の(1)〜(5)に対応する。
(1)クラスタリング
事前準備では、基本モデルを作成するために、あらかじめ用意された学習用データ901を使用する。学習データ901には、音声認識に使用する音響モデルの作成に使用される音声データベースをを使用する用いることができる。音響モデルには、様々な音声の波形データから抽出した特徴を含むことができる。
学習用データ901が与えられると、情報処理装置900は、学習用データ901から特徴パラメータを抽出する。そして、抽出した特徴パラメータに対してクラスタリングを行って、図9のaに例示するように、特徴パラメータに含まれる特徴量ベクトルを複数のクラスタに分割する。
このクラスタリングには、例えば、図10の(A)に記載すように、K平均(K−means)法を用いることができる。図9および図10のaにおいて、×印は特徴パラメータに含まれる特徴量ベクトルを示し、◇印はコードブックベクトルを示している。また、破線はクラスタの境界を示している。特徴パラメータに含まれる特徴量ベクトルは、K平均法を使用したクラスタリングによって、複数のクラスタに分割される。各クラスタは、コードブックベクトルを中心とした複数の特徴量ベクトルを含む。なお、図9および図10のaでは、図の簡単のために、3つのクラスタに特徴量ベクトルを分割した例を示しているが、分割するクラスタの数を限定する趣旨ではないのでは当然である。
(2)基本モデル作成
特徴パラメータのクラスタリングが完了すると、情報処理装置900は、複数のクラスタに分割された特徴パラメータから、GMMのモデルパラメータλgenを算出する。この算出したモデルパラメータλgenで特定されるGMMが基本モデルとなる。具体的には、以下のような処理が行われる。
まず、情報処理装置900は、複数のクラスタに分割された特徴パラメータからモデルパラメータλinitを算出する。すると、例えば、図10の(A)に示した特徴パラメータから図10の(B1)に示す、分布b1〜b3を含む初期GMMが作成される。
そして、情報処理装置900は、EMアルゴリズムを用いて、初期GMMのモデルパラメータλinitを一定の値に集束するまで更新する。この一定の値に集束したモデルパラメータλinitが、基本モデルのモデルパラメータλgenとなる。その結果、例えば、図10の(B1)に示した初期GMMから図10の(B2)に示す、分布c1〜c3を含む基本モデルが推定される。
(3)モデル適応
基本モデルの作成が完了すると、情報処理装置900は、あらかじめ用意された、多数の平静状態発話データ902に基本モデルを適応させて、不特定話者向け平静状態モデルのモデルパラメータλcalmを算出する。
本実施例では、多数の平静状態発話データ902に基本モデルを適応させる処理に、Bayesian適応を利用する。多数の平静状態発話データ902から抽出した特徴パラメータを用いたBayesian適応により、例えば、図10の(B2)に示した基本モデルから図10の(C)に示す、分布d1〜d3を含む不特定話者向け平静状態モデルが推定される。なお、図10の(C)に記載の○印は、学習用話者セットの平静状態発話データから抽出した特徴パラメータに含まれる特徴量ベクトルを示している。
(4)モデル適応
不特定話者向け平静状態モデルの作成が完了すると、情報処理装置900は、あらかじめ用意された、多数の異常状態発話データ903に不特定話者向け平静状態モデルを適応させて、不特定話者向け異常状態モデルのモデルパラメータλabnを算出する。
本実施例では、多数の異常状態発話データ903に不特定話者向け平静状態モデルを適応させる処理にも、Bayesian適応を利用する。多数の異常状態発話データ903の特徴パラメータを用いたBayesian適応により、例えば、図10の(C)に示した不特定話者向け平静状態モデルから図10の(D)に示す、分布e1〜e3を含む不特定話者向け異常状態モデルが推定される。なお、図10の(D)に記載の△印は、学習用話者セットの異常状態発話データから抽出した特徴パラメータに含まれる特徴量ベクトルを示している。
(5)変化量の算出
不特定話者向け平静状態モデルと不特定話者向け異常状態モデルの作成が完了すると、情報処理装置900は、不特定話者向け平静状態モデルと不特定話者向け異常状態モデルとの変化量を算出する。なお、本実施例では、不特定話者向け平静状態モデルも不特定話者向け異常状態モデルもGMMで表される。そこで、本実施例では、情報処理装置900は、GMMに含まれるモデルパラメータのうち、平均値および分散についての分布毎の変化量を算出する。算出の結果、対応関係表431が得られる。
(事前準備での具体的な処理)
図11は、本実施例に係る事前準備の処理を示すフローチャートである。
以下の処理は、非特許文献2の2.1節および2.2節の記載を利用して行うことができる。
ステップS1101において、情報処理装置900は、クラスタに初期値を割当てる。具体的には、情報処理装置900は、クラスタの中心を規定するコードブックベクトルm(l)(i=1,2,・・・、K)の初期値をランダムに決定し、コードブックベクトルm(l)を作成する。
本実施例では、K=1024とする。この場合、情報処理装置900は、学習用データから抽出した特徴パラメータに含まれるT個の特徴量ベクトルからランダムに1024個を選択する。そして、情報処理装置900は、選んだ1024個の特徴量ベクトルをコードブックベクトルの初期値として設定する。ただし、KをK=1024に限定する趣旨ではない。
ステップS1102において、情報処理装置900は、特徴量ベクトルを各クラスタに割当てる。具体的には、情報処理装置900は、学習用データから抽出した特徴パラメータに含まれるT個の特徴量ベクトルのうち、コードブックベクトルm(l)の初期値として使用したもの以外の特徴量ベクトルを、最も近いクラスタの中心を示すコードベクトルm(l)に割当てる。なお、特徴量ベクトルXに対して最も近いクラスタの中心を示すコードベクトルm(l)は、次式で算出することができる。
・・・ (26)
ステップS1103において、情報処理装置900は、クラスタ毎に、ステップS1102でクラスタに割当てた特徴量ベクトルの重心を算出する。そして、情報処理装置900は、算出した重心によって、クラスタの中心を示すコードベクトルm(l)を更新する。
ステップS1103でのコードベクトルm(l)の更新量が閾値以上の場合、情報処理装置900は、クラスタの中心が変化したと判断する(ステップS1104 NO)。この場合、情報処理装置900は、処理をステップS1102に移行する。
また、ステップS1103でのコードベクトルm(l)の更新量が閾値未満の場合、情報処理装置900は、クラスタの中心に変化がないと判断する(ステップS1104 YES)。この場合、情報処理装置900は、処理をステップS1105に移行する。
ステップS1105において、情報処理装置900は、ステップS1101〜S1104の処理によって各クラスタに割り当たられた特徴量ベクトルから、初期GMMのモデルパラメータλinitを算出する。
例えば、情報処理装置900は、クラスタiに割当てられた特徴量ベクトルの平均値μを算出する。また、情報処理装置900は、クラスタiに割当てられた特徴量ベクトルの分散σ を算出する。また、情報処理装置900は、学習用データから算出した特徴量ベクトルT個のうち、クラスタiに割当てられた特徴量ベクトルの数の総特徴ベクトル数に対する割合を算出する。この算出した割合が、混合分布の重みpとして使用される。
ステップS1106において、情報処理装置900は、以下の演算を行って、基本モデルのモデルパラメータλgenを算出する。
なお、以下に説明する演算は、例えば、非特許文献3などに記載されているEMアルゴリズムを利用して行うことができる。ただし、本実施例の説明に一貫性を持たせるために、非特許文献3ではフレーム番号を表すインデックスにiを使用しているが、本実施例ではフレーム番号を表すインデックスにiではなくlを使用する。そして、本実施例ではクラスタ番号を表すインデックスにiを使用する。また、非特許文献3では混合数にMを使用しているが、本実施例では混合数にKを使用する。また、非特許文献3では次元数としてNを使用しているが、本実施例では次元数にDを使用する。
例えば、フレームlにおけるD次元の特徴量ベクトルXに対する混合数KのGMMは次式で表すことができる。
・・・ (27)
ここで、D次元の特徴パラメータXに対するi番目のガウス関数の確率密度は次式で表すことができる。
・・・ (28)
上記式(29)において、ΣはD×Dの共分散行列を表す。共分散行列の対角成分のみ成分を持つと仮定すると、Σは次式で表すことができる。
・・・ (29)
したがって、D次元の特徴パラメータXに対するi番目のガウス関数の確率密度は次式で表すことができる。
・・・ (30)
また、モデルパラメータλは
・・・ (31)
と表すことができる。
そこで、情報処理装置900は、初期GMMのモデルパラメータλinitを代入した次式にしたがって、T個の特徴量ベクトルを含む特徴パラメータ{X}に対する初期GMMの対数尤度L(X|λinit)を算出する。
・・・ (32)
次に、情報処理装置900は、次式にしたがって、式(28)に示したGMMに含まれるi番目のガウス密度関数の平均値μ0,iと分散σ0,i および重みp0,iを算出する。
・・・ (33)
・・・ (34)
・・・ (35)
ただし、i番目のガウス関数に対する事後確率は次式で与えられる。
・・・ (36)
以上の計算が終了すると、情報処理装置900は、算出したモデルパラメータλ={μ0,i,σ0,i ,p0,i}を代入した式(33)にしたがって、T個の特徴量ベクトルを含む特徴パラメータ{X}に対するGMMの対数尤度L(X|λ)を算出する。
前回算出した対数尤度L(X|λinit)に対する対数尤度L(X|λ)の増加度合いが閾値以上の場合、情報処理装置900は、式(34)〜(37)に基づいた演算を行ってモデルパラメータλを算出する。同様に、n回目に算出した対数尤度L(X|λ)に対する、n+1回目に算出した対数尤度Ln+1(X|λ)の増加度合いが閾値未満となるまで、式(34)〜(37)に基づいた演算を行ってモデルパラメータλを算出する。
また、n回目に算出した対数尤度L(X|λ)に対する、n+1回目に算出した対数尤度Ln+1(X|λ)の増加度合いが閾値未満の場合、情報処理装置900は、EMアルゴリズムによるGMMの算出処理を終了する。
以上の処理によって、情報処理装置900は、基本モデルのモデルパラメータλgenを算出することができる。モデルパラメータλgenは、次式で表すことができる。
・・・ (37)
以上の処理によって、基本モデルが推定される。
基本モデルのモデルパラメータλgenを算出すると、情報処理装置900は、処理をステップS1107に移行する。
ステップS1107において、情報処理装置900は、以下の演算を行って、多数の平静状態話者データ902に、基本モデルを適応させることにより不特定話者向け平静状態モデルのモデルパラメータλcalmを算出する。
なお、以下に説明する演算には、特許文献4などに開示されているBayesian適応を用いることができる。Bayesian適応を用いる場合、Bayesian適応前の分布と、Bayesian適応後の分布との対応関係が把握しやすい。例えば、ある分布番号の分布におけるBayesian適応前後の変化量は、同じ分布番号の分布の数値を比較することで得ることができる。ただし、本実施例の説明に一貫性を持たせるために、非特許文献4では、フレーム番号のインデックスにTを使用しているが、本実施例ではフレーム番号のインデックスにLを使用する。また、非特許文献4ではi番目のガウス密度関数の重みをwで表しているが、本実施例ではi番目のガウス密度関数の重みをpで表す。また、非特許文献4ではi番目のガウス密度関数をp(x)で表しているが、本実施例ではb(x)で表す。また、非特許文献4ではi番目の事後確率をPr(i|x)で表しているが、本実施例ではp(i|x,λ)と表している。
まず、情報処理装置900は、多数の平静状態発話データ902から特徴パラメータを抽出する。そして、情報処理装置900は、抽出した特徴パラメータに含まれる特徴量ベクトルのうちTcalm個の特徴量ベクトルに対してBayesian適応を実施する。
例えば、Bayesian適応における確率的な意味でのフレーム数は、次式で表すことができる。
・・・ (38)
また、一次モーメントは、次式で表すことができる。
・・・ (39)
また、二次モーメントは、次式でで表すことができる。
・・・ (40)
データ依存の適応係数α2,i ρ,ρ={w,m,v}は、「Bayesian factor」と呼ばれる適応の度合いを調整するパラメータγを用いて、次式で表すことができる。なお、ρは、ガウス密度関数の重み(w)、平均値(m)または分散(v)を表すインデックス(添え字)であり、数値ではない。
・・・ (41)
そこで、情報処理装置900は、上記式(42)に示した適応係数α2,i ρを用いてGMMに含まれるモデルパラメータ、すなわち、GMMに含まれる各ガウス密度関数の重みp2,i,平均値μ2,iおよび分散σ2,i を、次式にしたがって算出する。
・・・ (42)
・・・ (43)
・・・ (44)
なお、γは、GMMに含まれる全てのガウス密度関数の重みp2,iの総和が1.0となるように補正するスケールファクタ定数である。このスケールファクタ定数γは、次式で求めることができる。
・・・ (45)
情報処理装置900は、上記式(42)〜(44)にしたがって演算を1度だけ行うことで、不特定話者向け平静状態モデルのモデルパラメータλcalmを求めることができる。モデルパラメータλcalmは、次式で表すことができる。
・・・ (46)
以上の処理によって、不特定話者向け平静状態モデルが推定される。
不特定話者向け平静状態モデルのモデルパラメータλcalmを算出すると、情報処理装置900は、処理をステップS1108に移行する。
ステップS1108において、情報処理装置900は、以下の演算を行って、多数の異常状態話者データ903に、不特定話者向け平静状態モデルを適応させることにより不特定話者向け異常状態モデルのモデルパラメータλabnを算出する。なお、以下に説明する演算は、ステップS1107と同様に、特許文献4などに開示されているBayesian適応を用いることができる。
まず、情報処理装置900は、多数の異常状態発話データ903から特徴パラメータを抽出する。そして、情報処理装置900は、抽出した特徴パラメータに含まれる特徴量ベクトルのうちTabn個の特徴量ベクトルに対してBayesian適応を実施する。
例えば、Bayesian適応における確率的な意味でのフレーム数は、次式で表すことができる。
・・・ (47)
また、一次モーメントは、次式で表すことができる。
・・・ (48)
また、二次モーメントは、次式で表すことができる。
・・・ (49)
データ依存の適応係数α3,i ρ,ρ={w,m,v}は、「Bayesian factor」と呼ばれる適応の度合いを調整するパラメータγを用いて、次式で表すことができる。なお、ρは、ガウス密度関数の重み(w)、平均値(m)または分散(v)を表すインデックス(添え字)であり、数値ではない。
・・・ (50)
そこで、情報処理装置900は、上記式(50)に示した適応係数α3,i ρを用いてGMMに含まれるモデルパラメータ、すなわち、GMMに含まれる各ガウス密度関数の重みp3,i,平均値μ3,iおよび分散σ3,i を、次式にしたがって算出する。
・・・ (51)
・・・ (52)
・・・ (53)
なお、γは、GMMに含まれる全てのガウス密度関数の重みp3,iの総和が1.0となるように補正するスケールファクタ定数である。このスケールファクタ定数γは、次式で求めることができる。
・・・ (54)
情報処理装置900は、上記式(51)〜(53)にしたがって演算を実行することで、不特定話者向け異常状態モデルのモデルパラメータλabnが求めることができる。モデルパラメータλabnは、次式で表すことができる。
・・・ (55)
以上の処理によって、不特定話者向け異常状態モデルが推定される。
不特定話者向け異常状態モデルのモデルパラメータλabnを算出すると、情報処理装置900は、処理をステップS1109に移行する。
ステップS1109において、情報処理装置900は、以下の演算を全ての分布に対して行って、ステップS1107で算出したモデルパラメータλcalmと、ステップS1108で算出したモデルパラメータλabnと、の差分を算出する。
情報処理装置900は、次式にしたがって、不特定話者向け平静状態モデルのモデルパラメータλcalmに含まれる平均値から、不特定話者向け異常状態モデルのモデルパラメータλabnに含まれる平均値への、分布iにおける変化量を算出する。
・・・ (56)
情報処理装置900は、次式にしたがって、不特定話者向け平静状態モデルのモデルパラメータλcalmに含まれる分散から、不特定話者向け異常状態モデルのモデルパラメータλabnに含まれる分散への、分布iにおける変化量を算出する。
・・・ (57)
以上の演算が終了すると、情報処理装置900は、演算結果を、対応関係表431として、情報処理装置900に備わる記憶部等に記憶する。そして、情報処理装置900は、処理を事前準備の処理を終了する(ステップS1110)。
なお、本実施例では、モデルパラメータに含まれる平均値と分散を対応関係表431に使用したが、モデルパラメータに含まれる分布の重みを使用することもできる。この場合、情報処理装置900は、次式にしたがって、分布iにおける分布の重みの変化量を算出する。
・・・ (58)
その他の実施例2
図12は、本実施例に係る状態検出装置1200を説明する図である。
なお、図12に示す状態検出装置1200は、図4に示した記憶部410〜440、平静状態モデル作成部450および異常状態モデル作成部460を含むが、図面の簡単のために省略する。
状態検出装置1200は、ADC(Analog Digital Converter)1202と、音声記憶処理部1203と、音声データ読込部1204と、尤度計算部480と、尤度比較部490と、を備える。また、状態検出装置1200は、更新判定部1205と、更新データ構築部1206と、を備える。また、状態検出装置1200は、平静状態モデル更新用リングバッファ1207と、異常状態モデル更新用リングバッファ1208と、を備える。また、状態検出装置1200は、更新処理制御部1209と、平静状態モデル更新部1210と、異常状態モデル作成部1211と、異常状態モデル更新部1212と、を備える。
ADC1202は、マイク1201を介して採取した話者の音声信号をアナログ信号からデジタル信号に変換し、変換した音声データを音声記憶処理部1203に出力する。音声記憶処理部1203は、ADC1202から音声データを受信すると、受信した音声データを記憶媒体1213に記憶する。記憶媒体1213には、USBメモリやSDカードなど様々な記憶媒体を使用することができる。
モデル更新の命令を受信すると、音声データ読込部1204は、記憶媒体1213に記憶されている音声データを読み出し、読み出した音声データを尤度計算部480に出力する。
尤度計算部480は、音声データ読込部1204から受信した音声データについて、特定話者向け平静状態モデルとの尤度と、特定話者向け異常状態モデルとの尤度を算出する。そして、尤度計算部480は、算出した尤度を、尤度比較部490と、更新判定部1205に出力する。
尤度比較部490は、尤度計算部480が算出した2つの尤度に基づいて、マイク1201に入力された音声を発した話者の状態、例えば、話者が平静状態にあるのか異常状態にあるのかを判定する。そして、尤度比較部490は、判定結果を所定の装置等に出力する。
更新判定部1205は、尤度計算部480から受信した尤度に応じて、特定話者向け平静状態モデルまたは特定話者向け異常状態モデルの更新を行うか否かを判定する。なお、本実施例では、特定話者向け平静状態モデルを更新する場合、同時に特定話者向け異常状態モデルも更新するが、特定話者向け平静状態モデルのみを更新してもよい。更新判定部1205は、判定結果をデータ構築部1206に出力する。
更新データ構築部1206は、更新判定部1205から受信した判定結果を更新処理制御部1209に出力する。そして、更新判定部1205から受信した判定結果が、特定話者向け平静状態モデルの更新であった場合、記憶媒体1213から読み出した音声データから特徴パラメータを抽出する。そして、更新データ構築部1206は、抽出した特徴パラメータを平静状態モデル更新用リングバッファ1207に記憶する。
また、更新データ構築部1206は、更新判定部1205から受信した判定結果が、特定話者向け異常状態モデルの更新であった場合、記憶媒体1213から読み出した音声データから特徴パラメータを抽出する。そして、更新データ構築部1206は、抽出した特徴パラメータを、異常状態モデル更新用リングバッファ1208に記憶する。
平静状態モデル更新用リングバッファ1207および異常状態モデル更新用リングバッファ1208は、一定の記憶容量を備えるリングバッファである。平静状態モデル更新用リングバッファ1207および異常状態モデル更新用リングバッファ1208は、記憶容量がいっぱいになると、古いデータが記憶されている領域から順に、新しいデータを上書きして記憶する。
更新処理制御部1209は、更新データ構築部1206から受信した判定結果にしたがって、平静状態モデル更新部1210または異常状態モデル更新部1212に対して更新処理の実行を指示する。
例えば、更新判定部1205から受信した判定結果が、特定話者向け平静状態モデルの更新であった場合、更新処理制御部1209は、平静状態モデル更新部1210に対して、不特定話者向け平静状態モデルの更新を指示する。また、更新判定部1205から受信した判定結果が、特定話者向け異常状態モデルの更新であった場合、更新処理制御部1209は、異常状態モデル更新部1212に対して、不特定話者向け異常状態モデルの更新を指示する。
平静状態モデル更新部1210は、平静状態モデル更新用リングバッファ1207から特徴パラメータを読み出す。そして、平静状態モデル更新部1210は、読み出した特徴パラメータを用いたBayesian適応により、記憶部420に記憶されている特定話者向け平静状態モデルから、新たな特定話者向け平静状態モデルを推定する。そして、平静状態モデル更新部1210は、記憶部420に記憶されている特定話者向け平静状態モデルを、新たに推定した特定話者向け平静状態モデルに更新する。
なお、本実施例では、記憶部420に記憶されている特定話者向け平静状態モデルから、新たな特定話者向け平静状態モデルを推定しているが、基本モデルから新たな特定話者向け平静状態モデルを推定してもよい。
異常状態モデル作成部1211は、平静状態モデル更新部1210が推定した特定話者向け平静状態モデルのモデルパラメータを、対応関係表431にしたがって調整し、新たな特定話者向け異常状態モデルを作成する。そして、異常状態モデル作成部1211は、記憶部440に記憶されている特定話者向け異常状態モデルを、新たに作成した特定話者向け異常状態モデルに更新する。
異常状態モデル更新部1212は、異常状態モデル更新用リングバッファ1208から特徴パラメータを読み出す。そして、異常状態モデル更新部1212は、読み出した特徴パラメータを用いたBayesian適応により、記憶部440に記憶されている特定話者向け異常状態モデルから、新たな特定話者向け異常状態モデルを推定する。そして、異常状態モデル更新部1212は、記憶部440に記憶されている特定話者向け異常状態モデルを、新たに推定した特定話者向け異常状態モデルに更新する。
なお、本実施例では、記憶部440に記憶されている特定話者向け異常状態モデルから、新たな特定話者向け異常状態モデルを推定しているが、基本モデルから新たな特定話者向け異常状態モデルを推定してもよい。
図13および図14は、本実施例に係る状態検出装置1200の動作を示すフローチャートである。
マイク1201を介して話者Fの音声が入力されると、状態検出装置1200は、以下の処理を開始する(ステップS1300)。
ステップS1301において、状態検出装置1200は、入力された話者Fの音声をデジタルデータに変換する。そして、状態検出装置1200は、デジタル化した話者Fの音声データを記憶媒体1213に記憶する。
状態検出装置1200は、状態検出装置1200に備わる入力手段、または、状態検出装置1200を含む装置、例えば、携帯電話に備わるCPU(Central Processing Unit)などからモデル更新の命令を受信する(ステップS1302)。この場合、状態検出装置1200は、記憶媒体1213から話者Fの音声データを読み出す(ステップS1303)。
状態検出装置1200は、ステップS1304〜S1310の処理を実行し、尤度比Λ(X)を算出する。なお、ステップS1304〜S1310の処理は、図8のステップS802〜S808と同様なので、説明を省略する。
尤度比Λ(X)の絶対値|Λ(X)|が閾値TH2未満の場合(ステップS1311 NO)、状態検出装置1200は、処理を終了する(ステップS1318)。なお、閾値TH2は、尤度比Λが明らかに平静状態または異常状態を示すと判断できると思われる値を使用する。
尤度比Λ(X)の絶対値|Λ(X)|が閾値TH2以上の場合(ステップS1311 YES)、状態検出装置1200は、状態検出装置1200は、話者Fが明らかな平静状態または異常状態にあるのでモデル更新可能と判断してステップS1312に移行する。
そして、尤度比Λ(X)が閾値TH1以上の場合(ステップS1312 YES)、状態検出装置1200は、話者Fが明らかな平静状態にあるので特定話者向け平静状態モデルを更新すると決定し、処理をステップS1313に移行する。この場合、状態検出装置1200は、記憶媒体1213に記憶された音声データから特徴パラメータを抽出する。そして、状態検出装置1200は、抽出した特徴パラメータを平静状態モデル更新用リングバッファ1207に書き込む(ステップS1313)。
ステップS1314において、状態検出装置1200は、平静状態モデル更新用リングバッファ1207から特徴パラメータを読み出す。そして、状態検出装置1200は、読み出した特徴パラメータを用いたBayesian適応により、記憶部420に記憶されている特定話者向け平静状態モデルから、新たな特定話者向け平静状態モデルを推定する。なお、この推定処理は、図7に示したステップS703と同様の処理を、状態検出装置1200が実行することによって実現することができる。状態検出装置1200は、記憶部420に記憶されている特定話者向け平静状態モデルを、新たに推定した特定話者向け平静状態モデルに更新する。
ステップS1315において、状態検出装置1200は、ステップS1314で更新した特定話者向け平静状態モデルのモデルパラメータを、対応関係表431にしたがって調整し、新たな特定話者向け異常状態モデルを作成する。なお、この作成処理は、図7に示したステップS704ど同様の処理を、状態検出装置1200が実行することによって実現することができる。状態検出装置1200は、記憶部440に記憶されている特定話者向け異常状態モデルを、新たに作成した特定話者向け異常状態モデルに更新する。そして、状態検出装置1200は、処理を終了する(ステップS1318)。
一方、尤度比Λ(X)が閾値TH1未満の場合(ステップS1312 NO)、状態検出装置1200は、話者Fが明らかな異常状態にあるので特定話者向け異常状態モデルを更新すると決定し、処理をステップS1316に移行する。この場合、状態検出装置1200は、記憶媒体1213に記憶された音声データから特徴パラメータを抽出する。そして、状態検出装置1200は、抽出した特徴パラメータを異常状態モデル更新用リングバッファ1208に書き込む(ステップS1316)。
ステップS1317において、状態検出装置1200は、異常状態モデル更新用リングバッファ1208から特徴パラメータを読み出す。そして、状態検出装置1200は、読み出した特徴パラメータを用いたBayesian適応により、記憶部440に記憶されている特定話者向け異常状態モデルから、新たな特定話者向け異常状態モデルを推定する。なお、この推定処理は、図7に示したステップS703と同様の処理を、状態検出装置1200が実行することによって実現することができる。状態検出装置1200は、記憶部440に記憶されている特定話者向け異常状態モデルを、新たに推定した特定話者向け異常状態モデルに更新する。そして、状態検出装置1200は、処理を終了する(ステップS1318)。
図15は、上記実施例で説明した状態検出装置の構成例を示す図である。図15に示す構成は、状態検出装置300、状態検出装置400および状態検出装置1200のいずれにも適用できる。以下では、状態検出装置400を例に説明する。
図15に示す状態検出装置は、DSP1501と、RAM1502と、フラッシュメモリ1503と、ADC1504と、ストレージ1505と、I/O(Input/Output)ユニット1506と、を備える。そして、これらの装置がバスに接続されて相互にデータの受け渡しが行える構成となっている。
DSP1501は、本実施例に係る状態検出を実現するプログラムなどをRAM1502から読み出して実行する演算装置である。例えば、DSP1501に所定のプログラム命令を実行させることで、図4に示した平静状態モデル作成部450、異常状態モデル作成部460、特徴パラメータ抽出部470、尤度計算部480および尤度比較部490などを実現することができる。
また、例えば、DSP1501に所定のプログラムを実行させることで、図12に示した音声記憶処理部1203、音声データ読込部1204、更新判定部1205、更新データ構築部1206、更新処理制御部1209、平静状態モデル更新部1210、異常状態モデル作成部1211および異常状態モデル更新部1212などを実現することができる。
RAM1502は、本実施例に係る状態検出を実現するプログラムを実行するためなどに使用される揮発性の記憶装置である。
フラッシュメモリ1503は、本実施例に係る状態検出を実現するプログラムを記憶する不揮発性の記憶装置である。
ADC1504は、アナログ信号をデジタル変換する装置である。例えば、ADC1504は、音声信号などのアナログ信号をデジタル化して音声データを生成する。
ストレージ1505は、大量のデータ、例えば、音声データなどを記憶する不揮発性の記憶装置である。ストレージ1505には、例えば、磁気ディスク記憶装置などを使用することができる。ストレージ1505は、記憶部410〜440や、平静状態モデル更新用リングバッファ1207、異常状態モデル更新用リングバッファ1208などに使用することができる。
I/Oユニット1506は、外部装置とのデータの入出力を制御する装置である。例えば、本実施例に係る状態検出の結果を、状態検出装置400と接続される所定の装置に出力する。
なお、RAM1502、フラッシュメモリ1503およびストレージ1505などの情報処理装置に読取り可能な記憶媒体には、非一時的(non−transitory)な媒体を使用することができる。
図16は、上記実施例で説明した状態検出装置を含む携帯電話1600の構成例を示す図である。
携帯電話1600は、状態検出装置1601と、制御部1602と、通信制御部1603と、スピーカ1604と、マイク1605と、表示部1606と、を備える。
状態検出装置1601には、状態検出装置300、状態検出装置400または状態検出装置1200を使用することができる。
制御部1602は、携帯電話1600全体を制御する。例えば、マイク1605から入力される音声をデジタル化して通信制御部1603に出力する。また、通信制御部1603から送られる音声データをスピーカ1605に出力する。
また、制御部1602は、マイク1605から送られる音声データを状態検出装置1601に出力する。そして、制御部1602は、状態検出装置1601が出力する判定結果を表示部1606に表示する。
また、制御部1602は、通信制御部1603から送られる音声データを状態検出装置1601に出力する。そして、制御部1602は、状態検出装置1601に対して、話者の登録やモデル更新の命令を行う。
通信制御部1603は、所定のプロトコルにしたがった通信制御を行い、制御部1602から送られる音声データを通信先の携帯電話に送信する。また、通信制御部1603は、通信先の携帯電話から送られる音声データを制御部1602に出力する。
以上の実施例で説明した状態検出装置において、記憶部410は、基本モデル記憶手段の一例として挙げることができる。
また、非抑圧状態を平静状態とすると、抑圧状態は異常状態ということができる。この場合、不特定話者向け平静状態モデルは、第1の不特定話者モデルの一例として挙げることができる。不特定話者向け異常状態モデルは、第2の不特定話者モデルの一例として挙げることができる。話者Fの平静状態モデルは、第1の特定話者モデルの一例として挙げることができる。平静状態モデル作成部450は、第1のモデル生成手段の一例として挙げることができる。話者Fの異常状態モデルは、第2の特定話者モデルの一例として挙げることができる。異常状態モデル作成部460は、第2のモデル生成手段の一例として挙げることができる。
また、対応関係表431は、対応関係情報の一例として挙げることができる。記憶部430は、対応関係情報記憶手段の一例として挙げることができる。また、尤度計算部480は、尤度算出手段の一例として挙げることができる。尤度比較部490は、状態判別手段の一例として挙げることができる。
また、更新判定部1205は、更新判定手段の一例として挙げることができる。更新データ構築部1206、更新処理制御部1209、平静状態モデル更新部1210、異常状態モデル作成部1211および異常状態モデル更新部1212を含む構成要素は、モデル更新手段の一例として挙げることができる。
以上に説明したように、状態検出装置400は、特定の話者、例えば話者Fの平静状態発話データから、特定の話者Fについての特定話者向け平静状態モデルを推定する。そして、状態検出装置400は、対応関係表431にしたがって、特定の話者Fについての特定話者向け平静状態モデルに含まれるパラメータを調整することで、特定の話者Fについての特定話者向け異常状態モデルを推定する。
このように、状態検出装置400は、特定の話者Fの平静状態発話データから作成した、特定の話者Fに特化した特定話者向け平静状態モデルと、その特定話者向け平静状態モデルから推定した特定話者向け異常状態モデルと、を使用して状態検出を行う。そのため、状態検出装置400は、特定の話者Fについての状態検出を高い精度で行うことができる。
また、状態検出装置400は、対応関係表431にしたがって、特定の話者Fについての特定話者向け平静状態モデルから、特定の話者Fについての特定話者向け異常状態モデルを推定する。そのため、状態検出装置400は、特定の話者Fの異常状態発話データをから特定の話者Fについての特定話者向け異常状態モデルを推定するという高い負荷の処理を行う必要がなくなる。その結果、状態検出装置400は、話者の登録時にかかる負荷を抑えることができる。
また、特定の話者Fについての特定話者向け平静状態モデルおよび特定話者向け異常状態モデルの推定には、特定の話者Fの平静状態発話データのみを使用する。そのため、利用者は、特定の話者Fの平静状態発話データのみ状態検出装置400に登録すれば、状態検出装置400に状態検出を行わせることができる。その結果、状態検出装置400は、利用者に簡単に状態検出を行わせることができる。また、利用者は、採取が難しい異常状態における特定の話者Fの発話データではなく、採取が容易な平静状態における特定の話者Fの発話データを登録すればよいので、状態検出装置400は、利用者により簡単に状態検出を行わせることができる。
また、状態検出装置1200は、明らかに平静状態または異常状態を示すと思われる音声データが入力された場合には、その音声データを使用して、特定話者向け平静状態モデルまたは特定話者向け異常状態モデルを更新する。その結果、状態検出装置1200は、より高い精度で、特定の話者Fについての状態検出を行うことができるようになる。
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)
複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを記憶するための基本モデル記憶手段と、
非抑圧状態における不特定の話者の音声の特徴をモデル化した第1の不特定話者モデルと、抑圧状態における不特定の話者の音声の特徴をモデル化した第2の不特定話者モデルと、の対応関係を示す対応関係情報を記憶するための対応関係情報記憶手段と、
前記非抑圧状態における特定の話者の音声の特徴を抽出し、該抽出した特徴を示すように前記基本モデルを調整することにより、前記非抑圧状態における前記特定の話者の音声の特徴をモデル化した第1の特定話者モデルを生成する第1のモデル生成手段と、
前記対応関係情報に基づいて、前記第1の不特定話者モデルに対する前記第2の不特定話者モデルへの変位量を、前記第1の特定話者モデルに反映することにより、前記抑圧状態における前記特定の話者の音声の特徴をモデル化した第2の特定話者モデルを生成する第2のモデル生成手段と、
入力音声の特徴に対する前記第1の特定話者モデルの尤度である第1の尤度と、前記入力音声に対する前記第2の特定話者モデルの尤度である第2の尤度と、を算出する尤度算出手段と、
前記第1の尤度および前記第2の尤度に基づいて、前記入力音声の話者の状態を判別する状態判別手段と、
を備える状態検出装置。
(付記2)
前記第1のモデル生成手段は、
前記非抑圧状態における特定の話者の音声の特徴を示す特徴パラメータを抽出し、該特徴パラメータから前記基本モデルに含まれるパラメータを生成し、該パラメータを前記基本モデルに反映することにより、前記第1の特定話者モデルを生成する、
ことを特徴とする付記1に記載の状態検出装置。
(付記3)
前記第2のモデル生成手段は、
前記対応関係情報に基づいて、前記第1の不特定話者モデルに含まれる第1のパラメータに対する、前記第2の不特定話者モデルに含まれる第2のパラメータへの変位量を、前記第1の特定話者モデルに含まれるパラメータに反映することにより、前記第2の特定話者モデルを生成する、
ことを特徴とする付記1に記載の状態検出装置。
(付記4)
前記第1の尤度および前記第2の尤度に基づいて、前記第1の特定話者モデルまたは前記第2の特定話者モデルを更新するか否かを判定する更新判定手段と、
前記更新判定手段の判定にしたがって、前記第1の特定話者モデルまたは前記第2の特定話者モデルを更新するモデル更新手段と、
をさらに備える付記1に記載の状態検出装置。
(付記5)
前記モデル更新手段は、
前記入力音声の特徴を抽出し、該抽出した特徴を示すように前記第1の特定話者モデルを調整することにより、前記第1の特定話者モデルを更新する第1のモデル更新手段と、
前記対応関係情報に基づいて、前記第1の不特定話者モデルに対する前記第2の不特定話者モデルへの変位量を、前記第1のモデル更新手段が更新した前記第1の特定話者モデルに反映することにより、前記第2の特定話者モデルを更新する第2のモデル更新手段と、
を備える付記4に記載の状態検出装置。
(付記6)
前記モデル更新手段は、
前記入力音声の特徴を抽出し、該抽出した特徴を示すように前記第2の特定話者モデルを調整することにより、前記第2の特定話者モデルを更新する第2のモデル更新手段、
を備える付記4に記載の状態検出装置。
(付記7)
前記特徴パラメータには、話者が発声する時に検出されるパルス信号に関連するパラメータと、前記パルス信号の時間変化量に関連するパラメータと、話者が発声する音声の抑揚に関連するパラメータと、話者が発声する音声の大きさに関するパラメータと、の少なくとも一方が含まれる、
ことを特徴とする付記2に記載の状態検出装置。
(付記8)
話者が発声する時に検出されるパルス信号に関連するパラメータには、対数LPC(Linear Predictive Coding)残差パワーが含まれる、
ことを特徴とする付記7に記載の状態検出装置。
(付記9)
前記パルスの強さの時間変化量に関連するパラメータには、Δ対数LPC(Linear Predictive Coding)残差パワーが含まれる、
ことを特徴とする付記7に記載の状態検出装置。
(付記10)
話者が発声する音声の抑揚に関連するパラメータには、前記音声のピッチ周波数が含まれる、
ことを特徴とする付記7に記載の状態検出装置。
(付記11)
話者が発声する音声の大きさに関するパラメータには、前記音声の高域におけるLPC(Linear Predictive Coding)残差スペクトルの平坦さを数値化した値が含まれる、
ことを特徴とする付記7に記載の状態検出装置。
(付記12)
前記状態判別手段は、前記第1の尤度に対する前記第2の尤度の比が閾値以上の場合、前記入力音声の話者の状態が前記非抑圧状態にあると判別する、
ことを特徴とする付記1に記載の状態検出装置。
(付記13)
前記状態判別手段は、前記第1の尤度に対する前記第2の尤度の比が閾値未満の場合、前記入力音声の話者の状態が前記抑圧状態にあると判別する、
ことを特徴とする付記1に記載の状態検出装置。
(付記14)
非抑圧状態における不特定の話者の音声の特徴をモデル化した第1の不特定話者モデルと、抑圧状態における不特定の話者の音声の特徴をモデル化した第2の不特定話者モデルと、の対応関係を示す対応関係情報を記憶するための対応関係情報記憶手段と、
前記非抑圧状態における特定の話者の音声の特徴を抽出し、該抽出した特徴を示すように、複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを記憶するための基本モデル記憶手段から読み出した前記基本モデルを調整することにより、前記非抑圧状態における前記特定の話者の音声の特徴をモデル化した第1の特定話者モデルを生成する第1のモデル生成手段と、
前記対応関係情報に基づいて、前記第1の不特定話者モデルに対する前記第2の不特定話者モデルへの変位量を、前記第1の特定話者モデルに反映することにより、前記抑圧状態における前記特定の話者の音声の特徴をモデル化した第2の特定話者モデルを生成する第2のモデル生成手段と、
入力音声の特徴に対する前記第1の特定話者モデルの尤度である第1の尤度と、前記入力音声に対する前記第2の特定話者モデルの尤度である第2の尤度と、を算出する尤度算出手段と、
前記第1の尤度および前記第2の尤度に基づいて、前記入力音声の話者の状態を判別する状態判別手段と、
を備える携帯電話。
(付記15)
複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを記憶するための記憶手段から前記基本モデルを読み出し、
非抑圧状態における特定の話者の音声の特徴を抽出し、該抽出した特徴を示すように、複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを調整することにより、前記非抑圧状態における前記特定の話者の音声の特徴をモデル化した第1の特定話者モデルを生成し、
前記非抑圧状態における不特定の話者の音声の特徴をモデル化した第1の不特定話者モデルと、抑圧状態における不特定の話者の音声の特徴をモデル化した第2の不特定話者モデルと、の対応関係を示す対応関係情報を記憶するための記憶手段から前記対応関係情報を読み出し、
前記対応関係情報に基づいて、前記第1の不特定話者モデルに対する前記第2の不特定話者モデルへの変位量を、前記第1の特定話者モデルに反映することにより、前記抑圧状態における前記特定の話者の音声の特徴をモデル化した第2の特定話者モデルを生成し、
入力音声の特徴に対する前記第1の特定話者モデルの尤度である第1の尤度と、前記入力音声に対する前記第2の特定話者モデルの尤度である第2の尤度と、を算出し、
前記第1の尤度および前記第2の尤度に基づいて、前記入力音声の話者の状態を判別する、
処理を情報処理装置が行う状態検出方法。
(付記16)
情報処理装置に、
複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを記憶するための記憶手段から前記基本モデルを読み出す処理と、
非抑圧状態における特定の話者の音声の特徴を抽出し、該抽出した特徴を示すように、複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを調整することにより、前記非抑圧状態における前記特定の話者の音声の特徴をモデル化した第1の特定話者モデルを生成する処理と、
前記非抑圧状態における不特定の話者の音声の特徴をモデル化した第1の不特定話者モデルと、抑圧状態における不特定の話者の音声の特徴をモデル化した第2の不特定話者モデルと、の対応関係を示す対応関係情報を記憶するための記憶手段から前記対応関係情報を読み出す処理と、
前記対応関係情報に基づいて、前記第1の不特定話者モデルに対する前記第2の不特定話者モデルへの変位量を、前記第1の特定話者モデルに反映することにより、前記抑圧状態における前記特定の話者の音声の特徴をモデル化した第2の特定話者モデルを生成する処理と、
入力音声の特徴に対する前記第1の特定話者モデルの尤度である第1の尤度と、前記入力音声に対する前記第2の特定話者モデルの尤度である第2の尤度と、を算出する処理と、
前記第1の尤度および前記第2の尤度に基づいて、前記入力音声の話者の状態を判別する処理と、
を実行させるためのプログラム。
300 状態検出装置
301 基本モデル記憶手段
302 対応関係情報記憶手段
303 第1のモデル生成手段
304 第2のモデル生成手段
305 尤度算出手段
306 状態判別手段
400 状態検出装置
410〜440 記憶部
431 対応関係表
450 平静状態モデル作成部
460 異常状態モデル作成部
470 特徴パラメータ抽出部
480 尤度計算部
490 尤度比較部

Claims (6)

  1. 複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを記憶するための基本モデル記憶手段と、
    非抑圧状態における不特定の話者の音声の特徴をモデル化した第1の不特定話者モデルと、抑圧状態における不特定の話者の音声の特徴をモデル化した第2の不特定話者モデルと、の対応関係を示す対応関係情報を記憶するための対応関係情報記憶手段と、
    前記非抑圧状態における特定の話者の音声の特徴を抽出し、該抽出した特徴を示すように前記基本モデルを調整することにより、前記非抑圧状態における前記特定の話者の音声の特徴をモデル化した第1の特定話者モデルを生成する第1のモデル生成手段と、
    前記対応関係情報に基づいて、前記第1の不特定話者モデルに対する前記第2の不特定話者モデルへの変位量を、前記第1の特定話者モデルに反映することにより、前記抑圧状態における前記特定の話者の音声の特徴をモデル化した第2の特定話者モデルを生成する第2のモデル生成手段と、
    入力音声の特徴に対する前記第1の特定話者モデルの尤度である第1の尤度と、前記入力音声に対する前記第2の特定話者モデルの尤度である第2の尤度と、を算出する尤度算出手段と、
    前記第1の尤度および前記第2の尤度に基づいて、前記入力音声の話者の状態を判別する状態判別手段と、
    を備える状態検出装置。
  2. 前記第1のモデル生成手段は、
    前記非抑圧状態における特定の話者の音声の特徴を示す特徴パラメータを抽出し、該特徴パラメータから前記基本モデルに含まれるパラメータを生成し、該パラメータを前記基本モデルに反映することにより、前記第1の特定話者モデルを生成する、
    ことを特徴とする請求項1に記載の状態検出装置。
  3. 前記第2のモデル生成手段は、
    前記対応関係情報に基づいて、前記第1の不特定話者モデルに含まれる第1のパラメータに対する、前記第2の不特定話者モデルに含まれる第2のパラメータへの変位量を、前記第1の特定話者モデルに含まれるパラメータに反映することにより、前記第2の特定話者モデルを生成する、
    ことを特徴とする請求項1に記載の状態検出装置。
  4. 前記第1の尤度および前記第2の尤度に基づいて、前記第1の特定話者モデルまたは前記第2の特定話者モデルを更新するか否かを判定する更新判定手段と、
    前記更新判定手段の判定にしたがって、前記第1の特定話者モデルまたは前記第2の特定話者モデルを更新するモデル更新手段と、
    をさらに備える請求項1に記載の状態検出装置。
  5. 非抑圧状態における不特定の話者の音声の特徴をモデル化した第1の不特定話者モデルと、抑圧状態における不特定の話者の音声の特徴をモデル化した第2の不特定話者モデルと、の対応関係を示す対応関係情報を記憶するための対応関係情報記憶手段と、
    前記非抑圧状態における特定の話者の音声の特徴を抽出し、該抽出した特徴を示すように、複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを記憶するための基本モデル記憶手段から読み出した前記基本モデルを調整することにより、前記非抑圧状態における前記特定の話者の音声の特徴をモデル化した第1の特定話者モデルを生成する第1のモデル生成手段と、
    前記対応関係情報に基づいて、前記第1の不特定話者モデルに対する前記第2の不特定話者モデルへの変位量を、前記第1の特定話者モデルに反映することにより、前記抑圧状態における前記特定の話者の音声の特徴をモデル化した第2の特定話者モデルを生成する第2のモデル生成手段と、
    入力音声の特徴に対する前記第1の特定話者モデルの尤度である第1の尤度と、前記入力音声に対する前記第2の特定話者モデルの尤度である第2の尤度と、を算出する尤度算出手段と、
    前記第1の尤度および前記第2の尤度に基づいて、前記入力音声の話者の状態を判別する状態判別手段と、
    を備える携帯電話。
  6. 複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを記憶するための記憶手段から前記基本モデルを読み出し、
    非抑圧状態における特定の話者の音声の特徴を抽出し、該抽出した特徴を示すように、複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを調整することにより、前記非抑圧状態における前記特定の話者の音声の特徴をモデル化した第1の特定話者モデルを生成し、
    前記非抑圧状態における不特定の話者の音声の特徴をモデル化した第1の不特定話者モデルと、抑圧状態における不特定の話者の音声の特徴をモデル化した第2の不特定話者モデルと、の対応関係を示す対応関係情報を記憶するための記憶手段から前記対応関係情報を読み出し、
    前記対応関係情報に基づいて、前記第1の不特定話者モデルに対する前記第2の不特定話者モデルへの変位量を、前記第1の特定話者モデルに反映することにより、前記抑圧状態における前記特定の話者の音声の特徴をモデル化した第2の特定話者モデルを生成し、
    入力音声の特徴に対する前記第1の特定話者モデルの尤度である第1の尤度と、前記入力音声に対する前記第2の特定話者モデルの尤度である第2の尤度と、を算出し、
    前記第1の尤度および前記第2の尤度に基づいて、前記入力音声の話者の状態を判別する、
    処理を情報処理装置が行う状態検出方法。
JP2010291190A 2010-12-27 2010-12-27 状態検出装置、状態検出方法および状態検出のためのプログラム Expired - Fee Related JP5494468B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010291190A JP5494468B2 (ja) 2010-12-27 2010-12-27 状態検出装置、状態検出方法および状態検出のためのプログラム
US13/253,683 US8996373B2 (en) 2010-12-27 2011-10-05 State detection device and state detecting method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010291190A JP5494468B2 (ja) 2010-12-27 2010-12-27 状態検出装置、状態検出方法および状態検出のためのプログラム

Publications (2)

Publication Number Publication Date
JP2012137680A true JP2012137680A (ja) 2012-07-19
JP5494468B2 JP5494468B2 (ja) 2014-05-14

Family

ID=46318143

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010291190A Expired - Fee Related JP5494468B2 (ja) 2010-12-27 2010-12-27 状態検出装置、状態検出方法および状態検出のためのプログラム

Country Status (2)

Country Link
US (1) US8996373B2 (ja)
JP (1) JP5494468B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019107170A1 (ja) * 2017-11-29 2019-06-06 日本電信電話株式会社 緊急度推定装置、緊急度推定方法、プログラム
JP2021510851A (ja) * 2018-01-26 2021-04-30 上海智臻智能網絡科技股▲ふん▼有限公司Shanghai Xiaoi Robot Technology Co.,Ltd. インテリジェントインタラクション方法、装置、コンピュータデバイス及びコンピュータ読取可能な記憶媒体
US11721357B2 (en) 2019-02-04 2023-08-08 Fujitsu Limited Voice processing method and voice processing apparatus

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102332263B (zh) * 2011-09-23 2012-11-07 浙江大学 一种基于近邻原则合成情感模型的说话人识别方法
US9569424B2 (en) * 2013-02-21 2017-02-14 Nuance Communications, Inc. Emotion detection in voicemail
US9786296B2 (en) * 2013-07-08 2017-10-10 Qualcomm Incorporated Method and apparatus for assigning keyword model to voice operated function
US10176818B2 (en) * 2013-11-15 2019-01-08 Adobe Inc. Sound processing using a product-of-filters model
WO2018020763A1 (ja) * 2016-07-26 2018-02-01 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
GB201719734D0 (en) * 2017-10-30 2018-01-10 Cirrus Logic Int Semiconductor Ltd Speaker identification
WO2019200412A1 (en) * 2018-04-11 2019-10-17 Future Fragment (Pty) Ltd A system for determining an emotional state of a subject
US20190385711A1 (en) 2018-06-19 2019-12-19 Ellipsis Health, Inc. Systems and methods for mental health assessment
EP3811245A4 (en) 2018-06-19 2022-03-09 Ellipsis Health, Inc. MENTAL HEALTH ASSESSMENT SYSTEMS AND METHODS
US11170800B2 (en) * 2020-02-27 2021-11-09 Microsoft Technology Licensing, Llc Adjusting user experience for multiuser sessions based on vocal-characteristic models
KR20220061505A (ko) * 2020-11-06 2022-05-13 현대자동차주식회사 감정 조절 시스템 및 감정 조절 방법

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01237600A (ja) * 1988-03-17 1989-09-22 A T R Jido Honyaku Denwa Kenkyusho:Kk スペクトログラムの正規化方法
JPH0895592A (ja) * 1994-09-21 1996-04-12 Nippon Telegr & Teleph Corp <Ntt> パターン認識方法
JPH10274992A (ja) * 1997-01-30 1998-10-13 Seiko Epson Corp 音声モデル学習データ作成方法およびその装置
JP2005346471A (ja) * 2004-06-03 2005-12-15 Canon Inc 情報処理方法、情報処理装置
JP2005352420A (ja) * 2004-06-14 2005-12-22 Nippon Telegr & Teleph Corp <Ntt> 要約コンテンツ生成装置、生成方法及びそのプログラム
JP2006113546A (ja) * 2004-09-14 2006-04-27 Honda Motor Co Ltd 情報伝達装置
JP2011242755A (ja) * 2010-04-22 2011-12-01 Fujitsu Ltd 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
WO2012014301A1 (ja) * 2010-07-29 2012-02-02 ユニバーサルロボット株式会社 飲酒状態判定装置及び飲酒状態判定方法

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3652753B2 (ja) 1994-10-28 2005-05-25 三菱電機株式会社 発声変形音声認識装置及び音声認識方法
US5742928A (en) * 1994-10-28 1998-04-21 Mitsubishi Denki Kabushiki Kaisha Apparatus and method for speech recognition in the presence of unnatural speech effects
JPH11119791A (ja) 1997-10-20 1999-04-30 Hitachi Ltd 音声感情認識システムおよび方法
JPH11212587A (ja) 1998-01-22 1999-08-06 Hitachi Ltd 音声認識における雑音適応方法
DE69833987T2 (de) * 1998-12-17 2006-11-16 Sony Corp. Halbüberwachte Sprecheradaptation
US6766295B1 (en) * 1999-05-10 2004-07-20 Nuance Communications Adaptation of a speech recognition system across multiple remote sessions with a speaker
US7590538B2 (en) * 1999-08-31 2009-09-15 Accenture Llp Voice recognition system for navigating on the internet
US6275806B1 (en) * 1999-08-31 2001-08-14 Andersen Consulting, Llp System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters
JP2001100781A (ja) * 1999-09-30 2001-04-13 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体
US7318032B1 (en) * 2000-06-13 2008-01-08 International Business Machines Corporation Speaker recognition method based on structured speaker modeling and a “Pickmax” scoring technique
AU5205700A (en) * 2000-06-15 2002-01-08 Intel Corporation Speaker adaptation using weighted feedback
JP4169921B2 (ja) * 2000-09-29 2008-10-22 パイオニア株式会社 音声認識システム
DE60213195T8 (de) * 2002-02-13 2007-10-04 Sony Deutschland Gmbh Verfahren, System und Computerprogramm zur Sprach-/Sprechererkennung unter Verwendung einer Emotionszustandsänderung für die unüberwachte Anpassung des Erkennungsverfahrens
US7236931B2 (en) * 2002-05-01 2007-06-26 Usb Ag, Stamford Branch Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems
US7452268B2 (en) * 2002-08-07 2008-11-18 Sony Computer Entertainment America Inc. System and method for modifying actions of a group of characters via group interactions
JP4109063B2 (ja) * 2002-09-18 2008-06-25 パイオニア株式会社 音声認識装置及び音声認識方法
US7603276B2 (en) * 2002-11-21 2009-10-13 Panasonic Corporation Standard-model generation for speech recognition using a reference model
US7340396B2 (en) * 2003-02-18 2008-03-04 Motorola, Inc. Method and apparatus for providing a speaker adapted speech recognition model set
JP2005249874A (ja) 2004-03-01 2005-09-15 Matsushita Electric Ind Co Ltd 音声認識装置、音声認識方法及び音声認識プログラム
US7813921B2 (en) * 2004-03-31 2010-10-12 Pioneer Corporation Speech recognition device and speech recognition method
EP1889255A1 (en) * 2005-05-24 2008-02-20 Loquendo S.p.A. Automatic text-independent, language-independent speaker voice-print creation and speaker recognition
US8504366B2 (en) * 2005-12-19 2013-08-06 Nuance Communications, Inc. Joint factor analysis scoring for speech processing systems
US7594200B2 (en) * 2005-12-19 2009-09-22 International Business Machines Corporation Method for finding multi-cycle clock gating
US7983910B2 (en) * 2006-03-03 2011-07-19 International Business Machines Corporation Communicating across voice and text channels with emotion preservation
US20070239441A1 (en) * 2006-03-29 2007-10-11 Jiri Navratil System and method for addressing channel mismatch through class specific transforms
US20080010065A1 (en) * 2006-06-05 2008-01-10 Harry Bratt Method and apparatus for speaker recognition
KR100826875B1 (ko) * 2006-09-08 2008-05-06 한국전자통신연구원 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치
EP2063416B1 (en) * 2006-09-13 2011-11-16 Nippon Telegraph And Telephone Corporation Feeling detection method, feeling detection device, feeling detection program containing the method, and recording medium containing the program
US7822605B2 (en) * 2006-10-19 2010-10-26 Nice Systems Ltd. Method and apparatus for large population speaker identification in telephone interactions
JP5200712B2 (ja) * 2008-07-10 2013-06-05 富士通株式会社 音声認識装置、音声認識方法及びコンピュータプログラム
JP5555987B2 (ja) 2008-07-11 2014-07-23 富士通株式会社 雑音抑圧装置、携帯電話機、雑音抑圧方法及びコンピュータプログラム
JP5206234B2 (ja) 2008-08-27 2013-06-12 富士通株式会社 雑音抑圧装置、携帯電話機、雑音抑圧方法及びコンピュータプログラム
JP2010152081A (ja) * 2008-12-25 2010-07-08 Toshiba Corp 話者適応装置及びそのプログラム
KR101014321B1 (ko) * 2009-02-24 2011-02-14 한국전자통신연구원 최소 분류 오차 기법을 이용한 감정 인식 방법
US9015046B2 (en) * 2010-06-10 2015-04-21 Nice-Systems Ltd. Methods and apparatus for real-time interaction analysis in call centers
US8738376B1 (en) * 2011-10-28 2014-05-27 Nuance Communications, Inc. Sparse maximum a posteriori (MAP) adaptation

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01237600A (ja) * 1988-03-17 1989-09-22 A T R Jido Honyaku Denwa Kenkyusho:Kk スペクトログラムの正規化方法
JPH0895592A (ja) * 1994-09-21 1996-04-12 Nippon Telegr & Teleph Corp <Ntt> パターン認識方法
JPH10274992A (ja) * 1997-01-30 1998-10-13 Seiko Epson Corp 音声モデル学習データ作成方法およびその装置
JP2005346471A (ja) * 2004-06-03 2005-12-15 Canon Inc 情報処理方法、情報処理装置
JP2005352420A (ja) * 2004-06-14 2005-12-22 Nippon Telegr & Teleph Corp <Ntt> 要約コンテンツ生成装置、生成方法及びそのプログラム
JP2006113546A (ja) * 2004-09-14 2006-04-27 Honda Motor Co Ltd 情報伝達装置
JP2011242755A (ja) * 2010-04-22 2011-12-01 Fujitsu Ltd 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
WO2012014301A1 (ja) * 2010-07-29 2012-02-02 ユニバーサルロボット株式会社 飲酒状態判定装置及び飲酒状態判定方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JEN-TZUNG CHIEN: "Online Hierarchical Transformation of Hidden Markov Models for Speech Recognition", IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, vol. 7, no. 6, JPN6014004293, November 1999 (1999-11-01), US, pages 656 - 667, XP011054402, ISSN: 0002738879 *
JUNICHI YAMAGISHI, ET AL.: "Analysis of Speaker Adaptation Algorithms for HMM-Based Speech Synthesis and a Constrained SMAPLR Ad", IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 17, no. 1, JPN6014004295, January 2009 (2009-01-01), US, pages 66 - 83, XP011241212, ISSN: 0002738880, DOI: 10.1109/TASL.2008.2006647 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019107170A1 (ja) * 2017-11-29 2019-06-06 日本電信電話株式会社 緊急度推定装置、緊急度推定方法、プログラム
JPWO2019107170A1 (ja) * 2017-11-29 2020-11-26 日本電信電話株式会社 緊急度推定装置、緊急度推定方法、プログラム
JP6996570B2 (ja) 2017-11-29 2022-01-17 日本電信電話株式会社 緊急度推定装置、緊急度推定方法、プログラム
US11495245B2 (en) 2017-11-29 2022-11-08 Nippon Telegraph And Telephone Corporation Urgency level estimation apparatus, urgency level estimation method, and program
JP2021510851A (ja) * 2018-01-26 2021-04-30 上海智臻智能網絡科技股▲ふん▼有限公司Shanghai Xiaoi Robot Technology Co.,Ltd. インテリジェントインタラクション方法、装置、コンピュータデバイス及びコンピュータ読取可能な記憶媒体
US11373641B2 (en) 2018-01-26 2022-06-28 Shanghai Xiaoi Robot Technology Co., Ltd. Intelligent interactive method and apparatus, computer device and computer readable storage medium
US11721357B2 (en) 2019-02-04 2023-08-08 Fujitsu Limited Voice processing method and voice processing apparatus

Also Published As

Publication number Publication date
US20120166195A1 (en) 2012-06-28
JP5494468B2 (ja) 2014-05-14
US8996373B2 (en) 2015-03-31

Similar Documents

Publication Publication Date Title
JP5494468B2 (ja) 状態検出装置、状態検出方法および状態検出のためのプログラム
US11232788B2 (en) Wakeword detection
KR102134201B1 (ko) 숫자 음성 인식에 있어서 음성 복호화 네트워크를 구성하기 위한 방법, 장치, 및 저장 매체
US9536525B2 (en) Speaker indexing device and speaker indexing method
US9070367B1 (en) Local speech recognition of frequent utterances
JP4355322B2 (ja) フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置
KR20200111853A (ko) 전자 장치 및 전자 장치의 음성 인식 제어 방법
US11495235B2 (en) System for creating speaker model based on vocal sounds for a speaker recognition system, computer program product, and controller, using two neural networks
CN112037774B (zh) 用于关键短语识别的系统和方法
JP6654611B2 (ja) 成長型対話装置
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
JP2012037619A (ja) 話者適応化装置、話者適応化方法および話者適応化用プログラム
US11705105B2 (en) Speech synthesizer for evaluating quality of synthesized speech using artificial intelligence and method of operating the same
JP5803125B2 (ja) 音声による抑圧状態検出装置およびプログラム
JP6468258B2 (ja) 音声対話装置および音声対話方法
WO2018163279A1 (ja) 音声処理装置、音声処理方法、および音声処理プログラム
US11282495B2 (en) Speech processing using embedding data
KR20150035312A (ko) 음성에 기반한 잠금 해제를 수행하는 사용자 장치, 음성에 기반한 사용자 장치의 잠금 해제 방법 및 컴퓨터 프로그램이 기록된 기록매체
KR101598950B1 (ko) 발음 평가 장치 및 이를 이용한 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체
JP2016186516A (ja) 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
JP6183147B2 (ja) 情報処理装置、プログラム、及び方法
JP2021162685A (ja) 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム
JP5949634B2 (ja) 音声合成システム、及び音声合成方法
CN113168438A (zh) 用户认证方法和设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130604

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140217

R150 Certificate of patent or registration of utility model

Ref document number: 5494468

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees