JP2012137680A - 状態検出装置、状態検出方法および状態検出のためのプログラム - Google Patents
状態検出装置、状態検出方法および状態検出のためのプログラム Download PDFInfo
- Publication number
- JP2012137680A JP2012137680A JP2010291190A JP2010291190A JP2012137680A JP 2012137680 A JP2012137680 A JP 2012137680A JP 2010291190 A JP2010291190 A JP 2010291190A JP 2010291190 A JP2010291190 A JP 2010291190A JP 2012137680 A JP2012137680 A JP 2012137680A
- Authority
- JP
- Japan
- Prior art keywords
- model
- speaker
- state
- likelihood
- specific speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims description 225
- 230000001629 suppression Effects 0.000 claims abstract description 26
- 238000006073 displacement reaction Methods 0.000 claims abstract description 16
- 238000003860 storage Methods 0.000 claims description 117
- 230000010365 information processing Effects 0.000 claims description 65
- 238000012545 processing Methods 0.000 claims description 41
- 238000004364 calculation method Methods 0.000 abstract description 38
- 230000002159 abnormal effect Effects 0.000 description 151
- 239000013598 vector Substances 0.000 description 48
- 238000009826 distribution Methods 0.000 description 47
- 238000000034 method Methods 0.000 description 46
- 230000008569 process Effects 0.000 description 40
- 230000006978 adaptation Effects 0.000 description 35
- 238000002360 preparation method Methods 0.000 description 22
- 230000008859 change Effects 0.000 description 20
- 230000006870 function Effects 0.000 description 18
- 239000000872 buffer Substances 0.000 description 17
- 239000000284 extract Substances 0.000 description 16
- 230000005477 standard model Effects 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 230000008451 emotion Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 238000010276 construction Methods 0.000 description 9
- 238000000605 extraction Methods 0.000 description 8
- 239000000203 mixture Substances 0.000 description 7
- 108010076504 Protein Sorting Signals Proteins 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 230000008909 emotion recognition Effects 0.000 description 3
- 230000037433 frameshift Effects 0.000 description 3
- 239000006185 dispersion Substances 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000004886 process control Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/08—Use of distortion metrics or a particular distance between probe pattern and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/12—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Telephonic Communication Services (AREA)
Abstract
【解決手段】音声に含まれる情報を利用して特定の話者の状態を精度よく検出するために、状態検出装置に、非抑圧状態における特定の話者の音声の特徴をモデル化した第1の特定話者モデルを生成する第1のモデル生成手段と、対応関係情報に基づいて、第1の不特定話者モデルに対する第2の不特定話者モデルへの変位量を、第1の特定話者モデルに反映することにより、抑圧状態における特定の話者の音声の特徴をモデル化した第2の特定話者モデルを生成する第2のモデル生成手段と、入力音声の特徴に対する第1の特定話者モデルの尤度である第1の尤度と、入力音声に対する第2の特定話者モデルの尤度である第2の尤度と、を算出する尤度算出手段と、第1の尤度および第2の尤度に基づいて、入力音声の話者の状態を判別する状態判別手段と、を備える。
【選択図】図3
Description
上記技術に関連して、発声変形モデルの学習に用いる音声データが少量の場合でも高い認識性能をもつ発声変形音声認識装置が知られている。この発声変形音声認識装置は、発声変形が生じた音声に生じる音韻スペクトルの変形を表現する発声変形モデルを学習する。そして、発声変形音声認識装置は、発声変形のない発声変形なし音声標準モデルに対し、発声変形モデルを用いてスペクトルの変形処理を施して変形音声標準モデルを出力する。そして、発声変形音声認識装置は、変形音声標準モデルと発声変形なし音声標準モデルとを用いて、入力音声信号に対し音響分析を行って得た発声変形音声特徴ベクトル時系列に対し認識処理を行う。
基本モデル記憶手段は、複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを記憶するための記憶手段である。
図1および図2は、発明者が検討した状態検出装置の概要を説明する図である。
図1に示す状態検出装置100は、基本モデルを記憶する記憶部110と、特定話者向け平静状態モデルを記憶する記憶部120と、特定話者向け異常状態モデルを記憶する記憶部130と、音声分析部140と、尤度計算部150と、尤度比較部160と、を備える。
例えば、話者Fの発話データが入力されると、音声解析部140は、話者Fの発話データから特徴パラメータを抽出する。すると、尤度計算部150は、抽出した特徴パラメータに対する、話者Fについての特定話者向け平静状態モデルの尤度を算出する。さらに、尤度計算部150は、抽出した特徴パラメータに対する、話者Fについての特定話者向け異常状態モデルの尤度を算出する。
図2に示す状態検出装置200は、不特定話者向け平静状態モデルを記憶する記憶部210と、不特定話者向け異常状態モデルを記憶する記憶部220と、音声分析部140と、尤度計算部230と、尤度比較部160と、を備える。
例えば、話者Fの発話データが入力されると、音声分析部140は、話者Fの発話データから特徴パラメータを抽出する。すると、尤度計算部230は、抽出した特徴パラメータに対する、不特定話者向け平静状態モデルの尤度を算出する。さらに、尤度計算部230は、抽出した特徴パラメータに対する、不特定話者向け異常状態モデルの尤度を算出する。
以下、本実施形態の一例について、図3〜図16に基づいて説明する。なお、以下に説明する実施形態はあくまでも例示であり、以下に明示しない種々の変形や技術の適用を排除する意図ではない。すなわち、本実施形態は、その趣旨を逸脱しない範囲で、種々変形して実施することができる。
状態検出装置300は、基本モデル記憶手段301と、対応関係情報記憶手段302と、第1のモデル生成手段303と、第2のモデル生成手段304と、尤度算出手段305と、状態判別手段306と、を備える。
以上のように、状態検出装置300は、非抑圧状態における特定の話者の音声から、非抑圧状態における特定の話者の音声の特徴をモデル化した第1の特定話者モデルを生成する。そして、状態検出装置300は、対応関係情報に基づいて、第1の特定話者モデルから、抑圧状態における特定の話者の音声の特徴をモデル化した第2の特定話者モデルを生成する。
状態検出装置400は、記憶部410〜440と、平静状態モデル作成部450と、異常状態モデル作成部460と、特徴パラメータ抽出部470と、尤度計算部480と、尤度比較部490と、を備える。
以下、話者の登録時の状態検出装置400の動作の概要を説明する。
例えば、話者Fの平静状態時の発話データが入力されると、平静状態モデル作成部450は、話者Fの平静状態時の発話データに、基本モデルを適応させて話者Fについての特定話者向け平静状態モデルを作成する。そして、平静状態モデル作成部450は、作成した特定話者向け平静状態モデルを記憶部420に記憶する。
以下、話者の状態検出時の状態検出装置400の動作を説明する。
例えば、話者Fの発話データが入力されると、特徴パラメータ抽出部470は、入力された話者Fの発話データから特徴パラメータを抽出する。すると、尤度計算部480は、記憶部420から話者Fについての特定話者向け平静状態モデルを読み出す。そして、尤度計算部480は、特徴パラメータ抽出部470が抽出した特徴パラメータに対する、話者Fについての特定話者向け平静状態モデルの尤度を計算する。同様に、尤度計算部480は、記憶部440から話者Fについての特定話者向け異常状態モデルを読み出す。そして、尤度計算部480は、特徴パラメータ抽出部470が抽出した特徴パラメータに対する、話者Fについての特定話者向け異常状態モデルの尤度を計算する。
対応関係表431は、GMMに含まれる分布毎の、平均値の移動量と、分散値の変化量と、を含んでいる。なお、図5に示す対応関係表431は、平均値と分散値が2次元の場合について例示しているが、平均値や分散値が2次元である場合に対応関係表431を限定する趣旨ではない
平均値の移動量は、不特定話者向け平静状態モデルと不特定話者向け異常状態モデルとを比較した場合における、不特定話者向け平静状態モデルの平均値から、不特定話者向け異常状態の平均値への移動量を示している。また、分散の変化量は、不特定話者向け平静状態モデルと不特定話者向け異常状態モデルとを比較した場合における、不特定話者向け平静状態モデルの分散から、不特定話者向け異常状態の分散への変化量を示している。
例えば、基本モデルが、座標601に示す点線で囲われた分布aで表されるものとする。話者Fの平静状態発話データが入力されると、平静状態モデル作成部450は、話者Fの平静状態発話データから特徴パラメータを抽出する。抽出した特徴パラメータに含まれる特徴量ベクトルは、例えば、座標601に示す●印のような分布を示す。なお、特徴量ベクトルの詳細については、図7で後述する。
話者Fについての特定話者向け平静状態モデルの推定が完了すると、異常状態モデル作成部460は、対応関係表431にしたがって、話者Fについての特定話者向け平静状態モデルを表すGMMに含まれるパラメータのうち、平均値と分散を調整する。これにより、話者Fについての特定話者向け平静状態モデルから、話者Fについての特定話者向け異常状態モデルの分布、例えば、座標602に示す一点破線で囲われた分布cが推定される。
図7は、本実施例に係る話者の登録時の処理を示すフローチャートである。
利用者が、状態検出装置400に備わる入力装置等を介して所定の操作を行うと、状態検出装置400は、以下の処理を開始する(ステップS700)。
ステップS703において、状態検出装置400は、話者Fについての特定話者向け平静状態モデルを作成する。本実施例に係る特定話者向け平静状態モデルは、GMMを用いて表すことができる。したがって、ステップS703では、話者Fについての特定話者向け平静状態モデルに含まれるモデルパラメータλcalm_userを、以下のように求める。
話者Fについての特定話者向け平静状態モデルの作成が完了すると、状態検出装置400は、話者Fについての特定話者向け平静状態モデルのモデルパラメータλcalm_userを記憶部420に記憶する。そして、状態検出装置400は、処理をステップS704に移行する。
ならば、次式にしたがって、分散‘σ1,i 2を算出する。
ならば、次式にしたがって、分散‘σ1,i 2を算出する。
この場合、負の重みは意味がないので、‘pi≦0のときは‘pi=0とする。
図8は、本実施例に係る話者の状態検出の処理を示すフローチャートである。
ステップS801において、状態検出装置400は、利用者の指示にしたがって、状態検出装置400に備わるマイク等から取得した話者Fの音声をデジタル化して発話データを生成する。そして、状態検出装置400は、生成した発話データをストレージ等に記憶する。
以上の処理が終了すると、状態検出装置400は、話者の状態検出の処理を終了する(ステップS809)。
本実施例に係る状態検出装置400を用いて話者の状態検出を行うには、所定の事前準備を行う必要がある。この事前準備では、状態検出に使用する対応関係表431が作成される。
図9は、本実施例に係る事前準備の概要を説明する図である。また、図10は、図9に示す事前準備で行われる処理の概要を説明する図である。なお、以下に記載する(1)〜(5)は、図9に記載の(1)〜(5)に対応する。
事前準備では、基本モデルを作成するために、あらかじめ用意された学習用データ901を使用する。学習データ901には、音声認識に使用する音響モデルの作成に使用される音声データベースをを使用する用いることができる。音響モデルには、様々な音声の波形データから抽出した特徴を含むことができる。
特徴パラメータのクラスタリングが完了すると、情報処理装置900は、複数のクラスタに分割された特徴パラメータから、GMMのモデルパラメータλgenを算出する。この算出したモデルパラメータλgenで特定されるGMMが基本モデルとなる。具体的には、以下のような処理が行われる。
基本モデルの作成が完了すると、情報処理装置900は、あらかじめ用意された、多数の平静状態発話データ902に基本モデルを適応させて、不特定話者向け平静状態モデルのモデルパラメータλcalmを算出する。
不特定話者向け平静状態モデルの作成が完了すると、情報処理装置900は、あらかじめ用意された、多数の異常状態発話データ903に不特定話者向け平静状態モデルを適応させて、不特定話者向け異常状態モデルのモデルパラメータλabnを算出する。
不特定話者向け平静状態モデルと不特定話者向け異常状態モデルの作成が完了すると、情報処理装置900は、不特定話者向け平静状態モデルと不特定話者向け異常状態モデルとの変化量を算出する。なお、本実施例では、不特定話者向け平静状態モデルも不特定話者向け異常状態モデルもGMMで表される。そこで、本実施例では、情報処理装置900は、GMMに含まれるモデルパラメータのうち、平均値および分散についての分布毎の変化量を算出する。算出の結果、対応関係表431が得られる。
図11は、本実施例に係る事前準備の処理を示すフローチャートである。
以下の処理は、非特許文献2の2.1節および2.2節の記載を利用して行うことができる。
と表すことができる。
なお、図12に示す状態検出装置1200は、図4に示した記憶部410〜440、平静状態モデル作成部450および異常状態モデル作成部460を含むが、図面の簡単のために省略する。
マイク1201を介して話者Fの音声が入力されると、状態検出装置1200は、以下の処理を開始する(ステップS1300)。
フラッシュメモリ1503は、本実施例に係る状態検出を実現するプログラムを記憶する不揮発性の記憶装置である。
ストレージ1505は、大量のデータ、例えば、音声データなどを記憶する不揮発性の記憶装置である。ストレージ1505には、例えば、磁気ディスク記憶装置などを使用することができる。ストレージ1505は、記憶部410〜440や、平静状態モデル更新用リングバッファ1207、異常状態モデル更新用リングバッファ1208などに使用することができる。
携帯電話1600は、状態検出装置1601と、制御部1602と、通信制御部1603と、スピーカ1604と、マイク1605と、表示部1606と、を備える。
制御部1602は、携帯電話1600全体を制御する。例えば、マイク1605から入力される音声をデジタル化して通信制御部1603に出力する。また、通信制御部1603から送られる音声データをスピーカ1605に出力する。
また、非抑圧状態を平静状態とすると、抑圧状態は異常状態ということができる。この場合、不特定話者向け平静状態モデルは、第1の不特定話者モデルの一例として挙げることができる。不特定話者向け異常状態モデルは、第2の不特定話者モデルの一例として挙げることができる。話者Fの平静状態モデルは、第1の特定話者モデルの一例として挙げることができる。平静状態モデル作成部450は、第1のモデル生成手段の一例として挙げることができる。話者Fの異常状態モデルは、第2の特定話者モデルの一例として挙げることができる。異常状態モデル作成部460は、第2のモデル生成手段の一例として挙げることができる。
(付記1)
複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを記憶するための基本モデル記憶手段と、
非抑圧状態における不特定の話者の音声の特徴をモデル化した第1の不特定話者モデルと、抑圧状態における不特定の話者の音声の特徴をモデル化した第2の不特定話者モデルと、の対応関係を示す対応関係情報を記憶するための対応関係情報記憶手段と、
前記非抑圧状態における特定の話者の音声の特徴を抽出し、該抽出した特徴を示すように前記基本モデルを調整することにより、前記非抑圧状態における前記特定の話者の音声の特徴をモデル化した第1の特定話者モデルを生成する第1のモデル生成手段と、
前記対応関係情報に基づいて、前記第1の不特定話者モデルに対する前記第2の不特定話者モデルへの変位量を、前記第1の特定話者モデルに反映することにより、前記抑圧状態における前記特定の話者の音声の特徴をモデル化した第2の特定話者モデルを生成する第2のモデル生成手段と、
入力音声の特徴に対する前記第1の特定話者モデルの尤度である第1の尤度と、前記入力音声に対する前記第2の特定話者モデルの尤度である第2の尤度と、を算出する尤度算出手段と、
前記第1の尤度および前記第2の尤度に基づいて、前記入力音声の話者の状態を判別する状態判別手段と、
を備える状態検出装置。
(付記2)
前記第1のモデル生成手段は、
前記非抑圧状態における特定の話者の音声の特徴を示す特徴パラメータを抽出し、該特徴パラメータから前記基本モデルに含まれるパラメータを生成し、該パラメータを前記基本モデルに反映することにより、前記第1の特定話者モデルを生成する、
ことを特徴とする付記1に記載の状態検出装置。
(付記3)
前記第2のモデル生成手段は、
前記対応関係情報に基づいて、前記第1の不特定話者モデルに含まれる第1のパラメータに対する、前記第2の不特定話者モデルに含まれる第2のパラメータへの変位量を、前記第1の特定話者モデルに含まれるパラメータに反映することにより、前記第2の特定話者モデルを生成する、
ことを特徴とする付記1に記載の状態検出装置。
(付記4)
前記第1の尤度および前記第2の尤度に基づいて、前記第1の特定話者モデルまたは前記第2の特定話者モデルを更新するか否かを判定する更新判定手段と、
前記更新判定手段の判定にしたがって、前記第1の特定話者モデルまたは前記第2の特定話者モデルを更新するモデル更新手段と、
をさらに備える付記1に記載の状態検出装置。
(付記5)
前記モデル更新手段は、
前記入力音声の特徴を抽出し、該抽出した特徴を示すように前記第1の特定話者モデルを調整することにより、前記第1の特定話者モデルを更新する第1のモデル更新手段と、
前記対応関係情報に基づいて、前記第1の不特定話者モデルに対する前記第2の不特定話者モデルへの変位量を、前記第1のモデル更新手段が更新した前記第1の特定話者モデルに反映することにより、前記第2の特定話者モデルを更新する第2のモデル更新手段と、
を備える付記4に記載の状態検出装置。
(付記6)
前記モデル更新手段は、
前記入力音声の特徴を抽出し、該抽出した特徴を示すように前記第2の特定話者モデルを調整することにより、前記第2の特定話者モデルを更新する第2のモデル更新手段、
を備える付記4に記載の状態検出装置。
(付記7)
前記特徴パラメータには、話者が発声する時に検出されるパルス信号に関連するパラメータと、前記パルス信号の時間変化量に関連するパラメータと、話者が発声する音声の抑揚に関連するパラメータと、話者が発声する音声の大きさに関するパラメータと、の少なくとも一方が含まれる、
ことを特徴とする付記2に記載の状態検出装置。
(付記8)
話者が発声する時に検出されるパルス信号に関連するパラメータには、対数LPC(Linear Predictive Coding)残差パワーが含まれる、
ことを特徴とする付記7に記載の状態検出装置。
(付記9)
前記パルスの強さの時間変化量に関連するパラメータには、Δ対数LPC(Linear Predictive Coding)残差パワーが含まれる、
ことを特徴とする付記7に記載の状態検出装置。
(付記10)
話者が発声する音声の抑揚に関連するパラメータには、前記音声のピッチ周波数が含まれる、
ことを特徴とする付記7に記載の状態検出装置。
(付記11)
話者が発声する音声の大きさに関するパラメータには、前記音声の高域におけるLPC(Linear Predictive Coding)残差スペクトルの平坦さを数値化した値が含まれる、
ことを特徴とする付記7に記載の状態検出装置。
(付記12)
前記状態判別手段は、前記第1の尤度に対する前記第2の尤度の比が閾値以上の場合、前記入力音声の話者の状態が前記非抑圧状態にあると判別する、
ことを特徴とする付記1に記載の状態検出装置。
(付記13)
前記状態判別手段は、前記第1の尤度に対する前記第2の尤度の比が閾値未満の場合、前記入力音声の話者の状態が前記抑圧状態にあると判別する、
ことを特徴とする付記1に記載の状態検出装置。
(付記14)
非抑圧状態における不特定の話者の音声の特徴をモデル化した第1の不特定話者モデルと、抑圧状態における不特定の話者の音声の特徴をモデル化した第2の不特定話者モデルと、の対応関係を示す対応関係情報を記憶するための対応関係情報記憶手段と、
前記非抑圧状態における特定の話者の音声の特徴を抽出し、該抽出した特徴を示すように、複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを記憶するための基本モデル記憶手段から読み出した前記基本モデルを調整することにより、前記非抑圧状態における前記特定の話者の音声の特徴をモデル化した第1の特定話者モデルを生成する第1のモデル生成手段と、
前記対応関係情報に基づいて、前記第1の不特定話者モデルに対する前記第2の不特定話者モデルへの変位量を、前記第1の特定話者モデルに反映することにより、前記抑圧状態における前記特定の話者の音声の特徴をモデル化した第2の特定話者モデルを生成する第2のモデル生成手段と、
入力音声の特徴に対する前記第1の特定話者モデルの尤度である第1の尤度と、前記入力音声に対する前記第2の特定話者モデルの尤度である第2の尤度と、を算出する尤度算出手段と、
前記第1の尤度および前記第2の尤度に基づいて、前記入力音声の話者の状態を判別する状態判別手段と、
を備える携帯電話。
(付記15)
複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを記憶するための記憶手段から前記基本モデルを読み出し、
非抑圧状態における特定の話者の音声の特徴を抽出し、該抽出した特徴を示すように、複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを調整することにより、前記非抑圧状態における前記特定の話者の音声の特徴をモデル化した第1の特定話者モデルを生成し、
前記非抑圧状態における不特定の話者の音声の特徴をモデル化した第1の不特定話者モデルと、抑圧状態における不特定の話者の音声の特徴をモデル化した第2の不特定話者モデルと、の対応関係を示す対応関係情報を記憶するための記憶手段から前記対応関係情報を読み出し、
前記対応関係情報に基づいて、前記第1の不特定話者モデルに対する前記第2の不特定話者モデルへの変位量を、前記第1の特定話者モデルに反映することにより、前記抑圧状態における前記特定の話者の音声の特徴をモデル化した第2の特定話者モデルを生成し、
入力音声の特徴に対する前記第1の特定話者モデルの尤度である第1の尤度と、前記入力音声に対する前記第2の特定話者モデルの尤度である第2の尤度と、を算出し、
前記第1の尤度および前記第2の尤度に基づいて、前記入力音声の話者の状態を判別する、
処理を情報処理装置が行う状態検出方法。
(付記16)
情報処理装置に、
複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを記憶するための記憶手段から前記基本モデルを読み出す処理と、
非抑圧状態における特定の話者の音声の特徴を抽出し、該抽出した特徴を示すように、複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを調整することにより、前記非抑圧状態における前記特定の話者の音声の特徴をモデル化した第1の特定話者モデルを生成する処理と、
前記非抑圧状態における不特定の話者の音声の特徴をモデル化した第1の不特定話者モデルと、抑圧状態における不特定の話者の音声の特徴をモデル化した第2の不特定話者モデルと、の対応関係を示す対応関係情報を記憶するための記憶手段から前記対応関係情報を読み出す処理と、
前記対応関係情報に基づいて、前記第1の不特定話者モデルに対する前記第2の不特定話者モデルへの変位量を、前記第1の特定話者モデルに反映することにより、前記抑圧状態における前記特定の話者の音声の特徴をモデル化した第2の特定話者モデルを生成する処理と、
入力音声の特徴に対する前記第1の特定話者モデルの尤度である第1の尤度と、前記入力音声に対する前記第2の特定話者モデルの尤度である第2の尤度と、を算出する処理と、
前記第1の尤度および前記第2の尤度に基づいて、前記入力音声の話者の状態を判別する処理と、
を実行させるためのプログラム。
301 基本モデル記憶手段
302 対応関係情報記憶手段
303 第1のモデル生成手段
304 第2のモデル生成手段
305 尤度算出手段
306 状態判別手段
400 状態検出装置
410〜440 記憶部
431 対応関係表
450 平静状態モデル作成部
460 異常状態モデル作成部
470 特徴パラメータ抽出部
480 尤度計算部
490 尤度比較部
Claims (6)
- 複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを記憶するための基本モデル記憶手段と、
非抑圧状態における不特定の話者の音声の特徴をモデル化した第1の不特定話者モデルと、抑圧状態における不特定の話者の音声の特徴をモデル化した第2の不特定話者モデルと、の対応関係を示す対応関係情報を記憶するための対応関係情報記憶手段と、
前記非抑圧状態における特定の話者の音声の特徴を抽出し、該抽出した特徴を示すように前記基本モデルを調整することにより、前記非抑圧状態における前記特定の話者の音声の特徴をモデル化した第1の特定話者モデルを生成する第1のモデル生成手段と、
前記対応関係情報に基づいて、前記第1の不特定話者モデルに対する前記第2の不特定話者モデルへの変位量を、前記第1の特定話者モデルに反映することにより、前記抑圧状態における前記特定の話者の音声の特徴をモデル化した第2の特定話者モデルを生成する第2のモデル生成手段と、
入力音声の特徴に対する前記第1の特定話者モデルの尤度である第1の尤度と、前記入力音声に対する前記第2の特定話者モデルの尤度である第2の尤度と、を算出する尤度算出手段と、
前記第1の尤度および前記第2の尤度に基づいて、前記入力音声の話者の状態を判別する状態判別手段と、
を備える状態検出装置。 - 前記第1のモデル生成手段は、
前記非抑圧状態における特定の話者の音声の特徴を示す特徴パラメータを抽出し、該特徴パラメータから前記基本モデルに含まれるパラメータを生成し、該パラメータを前記基本モデルに反映することにより、前記第1の特定話者モデルを生成する、
ことを特徴とする請求項1に記載の状態検出装置。 - 前記第2のモデル生成手段は、
前記対応関係情報に基づいて、前記第1の不特定話者モデルに含まれる第1のパラメータに対する、前記第2の不特定話者モデルに含まれる第2のパラメータへの変位量を、前記第1の特定話者モデルに含まれるパラメータに反映することにより、前記第2の特定話者モデルを生成する、
ことを特徴とする請求項1に記載の状態検出装置。 - 前記第1の尤度および前記第2の尤度に基づいて、前記第1の特定話者モデルまたは前記第2の特定話者モデルを更新するか否かを判定する更新判定手段と、
前記更新判定手段の判定にしたがって、前記第1の特定話者モデルまたは前記第2の特定話者モデルを更新するモデル更新手段と、
をさらに備える請求項1に記載の状態検出装置。 - 非抑圧状態における不特定の話者の音声の特徴をモデル化した第1の不特定話者モデルと、抑圧状態における不特定の話者の音声の特徴をモデル化した第2の不特定話者モデルと、の対応関係を示す対応関係情報を記憶するための対応関係情報記憶手段と、
前記非抑圧状態における特定の話者の音声の特徴を抽出し、該抽出した特徴を示すように、複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを記憶するための基本モデル記憶手段から読み出した前記基本モデルを調整することにより、前記非抑圧状態における前記特定の話者の音声の特徴をモデル化した第1の特定話者モデルを生成する第1のモデル生成手段と、
前記対応関係情報に基づいて、前記第1の不特定話者モデルに対する前記第2の不特定話者モデルへの変位量を、前記第1の特定話者モデルに反映することにより、前記抑圧状態における前記特定の話者の音声の特徴をモデル化した第2の特定話者モデルを生成する第2のモデル生成手段と、
入力音声の特徴に対する前記第1の特定話者モデルの尤度である第1の尤度と、前記入力音声に対する前記第2の特定話者モデルの尤度である第2の尤度と、を算出する尤度算出手段と、
前記第1の尤度および前記第2の尤度に基づいて、前記入力音声の話者の状態を判別する状態判別手段と、
を備える携帯電話。 - 複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを記憶するための記憶手段から前記基本モデルを読み出し、
非抑圧状態における特定の話者の音声の特徴を抽出し、該抽出した特徴を示すように、複数の不特定の話者から採取した音声の特徴をモデル化した基本モデルを調整することにより、前記非抑圧状態における前記特定の話者の音声の特徴をモデル化した第1の特定話者モデルを生成し、
前記非抑圧状態における不特定の話者の音声の特徴をモデル化した第1の不特定話者モデルと、抑圧状態における不特定の話者の音声の特徴をモデル化した第2の不特定話者モデルと、の対応関係を示す対応関係情報を記憶するための記憶手段から前記対応関係情報を読み出し、
前記対応関係情報に基づいて、前記第1の不特定話者モデルに対する前記第2の不特定話者モデルへの変位量を、前記第1の特定話者モデルに反映することにより、前記抑圧状態における前記特定の話者の音声の特徴をモデル化した第2の特定話者モデルを生成し、
入力音声の特徴に対する前記第1の特定話者モデルの尤度である第1の尤度と、前記入力音声に対する前記第2の特定話者モデルの尤度である第2の尤度と、を算出し、
前記第1の尤度および前記第2の尤度に基づいて、前記入力音声の話者の状態を判別する、
処理を情報処理装置が行う状態検出方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010291190A JP5494468B2 (ja) | 2010-12-27 | 2010-12-27 | 状態検出装置、状態検出方法および状態検出のためのプログラム |
US13/253,683 US8996373B2 (en) | 2010-12-27 | 2011-10-05 | State detection device and state detecting method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010291190A JP5494468B2 (ja) | 2010-12-27 | 2010-12-27 | 状態検出装置、状態検出方法および状態検出のためのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012137680A true JP2012137680A (ja) | 2012-07-19 |
JP5494468B2 JP5494468B2 (ja) | 2014-05-14 |
Family
ID=46318143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010291190A Expired - Fee Related JP5494468B2 (ja) | 2010-12-27 | 2010-12-27 | 状態検出装置、状態検出方法および状態検出のためのプログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US8996373B2 (ja) |
JP (1) | JP5494468B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019107170A1 (ja) * | 2017-11-29 | 2019-06-06 | 日本電信電話株式会社 | 緊急度推定装置、緊急度推定方法、プログラム |
JP2021510851A (ja) * | 2018-01-26 | 2021-04-30 | 上海智臻智能網絡科技股▲ふん▼有限公司Shanghai Xiaoi Robot Technology Co.,Ltd. | インテリジェントインタラクション方法、装置、コンピュータデバイス及びコンピュータ読取可能な記憶媒体 |
US11721357B2 (en) | 2019-02-04 | 2023-08-08 | Fujitsu Limited | Voice processing method and voice processing apparatus |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102332263B (zh) * | 2011-09-23 | 2012-11-07 | 浙江大学 | 一种基于近邻原则合成情感模型的说话人识别方法 |
US9569424B2 (en) * | 2013-02-21 | 2017-02-14 | Nuance Communications, Inc. | Emotion detection in voicemail |
US9786296B2 (en) * | 2013-07-08 | 2017-10-10 | Qualcomm Incorporated | Method and apparatus for assigning keyword model to voice operated function |
US10176818B2 (en) * | 2013-11-15 | 2019-01-08 | Adobe Inc. | Sound processing using a product-of-filters model |
WO2018020763A1 (ja) * | 2016-07-26 | 2018-02-01 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
GB201719734D0 (en) * | 2017-10-30 | 2018-01-10 | Cirrus Logic Int Semiconductor Ltd | Speaker identification |
WO2019200412A1 (en) * | 2018-04-11 | 2019-10-17 | Future Fragment (Pty) Ltd | A system for determining an emotional state of a subject |
US20190385711A1 (en) | 2018-06-19 | 2019-12-19 | Ellipsis Health, Inc. | Systems and methods for mental health assessment |
EP3811245A4 (en) | 2018-06-19 | 2022-03-09 | Ellipsis Health, Inc. | MENTAL HEALTH ASSESSMENT SYSTEMS AND METHODS |
US11170800B2 (en) * | 2020-02-27 | 2021-11-09 | Microsoft Technology Licensing, Llc | Adjusting user experience for multiuser sessions based on vocal-characteristic models |
KR20220061505A (ko) * | 2020-11-06 | 2022-05-13 | 현대자동차주식회사 | 감정 조절 시스템 및 감정 조절 방법 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01237600A (ja) * | 1988-03-17 | 1989-09-22 | A T R Jido Honyaku Denwa Kenkyusho:Kk | スペクトログラムの正規化方法 |
JPH0895592A (ja) * | 1994-09-21 | 1996-04-12 | Nippon Telegr & Teleph Corp <Ntt> | パターン認識方法 |
JPH10274992A (ja) * | 1997-01-30 | 1998-10-13 | Seiko Epson Corp | 音声モデル学習データ作成方法およびその装置 |
JP2005346471A (ja) * | 2004-06-03 | 2005-12-15 | Canon Inc | 情報処理方法、情報処理装置 |
JP2005352420A (ja) * | 2004-06-14 | 2005-12-22 | Nippon Telegr & Teleph Corp <Ntt> | 要約コンテンツ生成装置、生成方法及びそのプログラム |
JP2006113546A (ja) * | 2004-09-14 | 2006-04-27 | Honda Motor Co Ltd | 情報伝達装置 |
JP2011242755A (ja) * | 2010-04-22 | 2011-12-01 | Fujitsu Ltd | 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法 |
WO2012014301A1 (ja) * | 2010-07-29 | 2012-02-02 | ユニバーサルロボット株式会社 | 飲酒状態判定装置及び飲酒状態判定方法 |
Family Cites Families (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3652753B2 (ja) | 1994-10-28 | 2005-05-25 | 三菱電機株式会社 | 発声変形音声認識装置及び音声認識方法 |
US5742928A (en) * | 1994-10-28 | 1998-04-21 | Mitsubishi Denki Kabushiki Kaisha | Apparatus and method for speech recognition in the presence of unnatural speech effects |
JPH11119791A (ja) | 1997-10-20 | 1999-04-30 | Hitachi Ltd | 音声感情認識システムおよび方法 |
JPH11212587A (ja) | 1998-01-22 | 1999-08-06 | Hitachi Ltd | 音声認識における雑音適応方法 |
DE69833987T2 (de) * | 1998-12-17 | 2006-11-16 | Sony Corp. | Halbüberwachte Sprecheradaptation |
US6766295B1 (en) * | 1999-05-10 | 2004-07-20 | Nuance Communications | Adaptation of a speech recognition system across multiple remote sessions with a speaker |
US7590538B2 (en) * | 1999-08-31 | 2009-09-15 | Accenture Llp | Voice recognition system for navigating on the internet |
US6275806B1 (en) * | 1999-08-31 | 2001-08-14 | Andersen Consulting, Llp | System method and article of manufacture for detecting emotion in voice signals by utilizing statistics for voice signal parameters |
JP2001100781A (ja) * | 1999-09-30 | 2001-04-13 | Sony Corp | 音声処理装置および音声処理方法、並びに記録媒体 |
US7318032B1 (en) * | 2000-06-13 | 2008-01-08 | International Business Machines Corporation | Speaker recognition method based on structured speaker modeling and a “Pickmax” scoring technique |
AU5205700A (en) * | 2000-06-15 | 2002-01-08 | Intel Corporation | Speaker adaptation using weighted feedback |
JP4169921B2 (ja) * | 2000-09-29 | 2008-10-22 | パイオニア株式会社 | 音声認識システム |
DE60213195T8 (de) * | 2002-02-13 | 2007-10-04 | Sony Deutschland Gmbh | Verfahren, System und Computerprogramm zur Sprach-/Sprechererkennung unter Verwendung einer Emotionszustandsänderung für die unüberwachte Anpassung des Erkennungsverfahrens |
US7236931B2 (en) * | 2002-05-01 | 2007-06-26 | Usb Ag, Stamford Branch | Systems and methods for automatic acoustic speaker adaptation in computer-assisted transcription systems |
US7452268B2 (en) * | 2002-08-07 | 2008-11-18 | Sony Computer Entertainment America Inc. | System and method for modifying actions of a group of characters via group interactions |
JP4109063B2 (ja) * | 2002-09-18 | 2008-06-25 | パイオニア株式会社 | 音声認識装置及び音声認識方法 |
US7603276B2 (en) * | 2002-11-21 | 2009-10-13 | Panasonic Corporation | Standard-model generation for speech recognition using a reference model |
US7340396B2 (en) * | 2003-02-18 | 2008-03-04 | Motorola, Inc. | Method and apparatus for providing a speaker adapted speech recognition model set |
JP2005249874A (ja) | 2004-03-01 | 2005-09-15 | Matsushita Electric Ind Co Ltd | 音声認識装置、音声認識方法及び音声認識プログラム |
US7813921B2 (en) * | 2004-03-31 | 2010-10-12 | Pioneer Corporation | Speech recognition device and speech recognition method |
EP1889255A1 (en) * | 2005-05-24 | 2008-02-20 | Loquendo S.p.A. | Automatic text-independent, language-independent speaker voice-print creation and speaker recognition |
US8504366B2 (en) * | 2005-12-19 | 2013-08-06 | Nuance Communications, Inc. | Joint factor analysis scoring for speech processing systems |
US7594200B2 (en) * | 2005-12-19 | 2009-09-22 | International Business Machines Corporation | Method for finding multi-cycle clock gating |
US7983910B2 (en) * | 2006-03-03 | 2011-07-19 | International Business Machines Corporation | Communicating across voice and text channels with emotion preservation |
US20070239441A1 (en) * | 2006-03-29 | 2007-10-11 | Jiri Navratil | System and method for addressing channel mismatch through class specific transforms |
US20080010065A1 (en) * | 2006-06-05 | 2008-01-10 | Harry Bratt | Method and apparatus for speaker recognition |
KR100826875B1 (ko) * | 2006-09-08 | 2008-05-06 | 한국전자통신연구원 | 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치 |
EP2063416B1 (en) * | 2006-09-13 | 2011-11-16 | Nippon Telegraph And Telephone Corporation | Feeling detection method, feeling detection device, feeling detection program containing the method, and recording medium containing the program |
US7822605B2 (en) * | 2006-10-19 | 2010-10-26 | Nice Systems Ltd. | Method and apparatus for large population speaker identification in telephone interactions |
JP5200712B2 (ja) * | 2008-07-10 | 2013-06-05 | 富士通株式会社 | 音声認識装置、音声認識方法及びコンピュータプログラム |
JP5555987B2 (ja) | 2008-07-11 | 2014-07-23 | 富士通株式会社 | 雑音抑圧装置、携帯電話機、雑音抑圧方法及びコンピュータプログラム |
JP5206234B2 (ja) | 2008-08-27 | 2013-06-12 | 富士通株式会社 | 雑音抑圧装置、携帯電話機、雑音抑圧方法及びコンピュータプログラム |
JP2010152081A (ja) * | 2008-12-25 | 2010-07-08 | Toshiba Corp | 話者適応装置及びそのプログラム |
KR101014321B1 (ko) * | 2009-02-24 | 2011-02-14 | 한국전자통신연구원 | 최소 분류 오차 기법을 이용한 감정 인식 방법 |
US9015046B2 (en) * | 2010-06-10 | 2015-04-21 | Nice-Systems Ltd. | Methods and apparatus for real-time interaction analysis in call centers |
US8738376B1 (en) * | 2011-10-28 | 2014-05-27 | Nuance Communications, Inc. | Sparse maximum a posteriori (MAP) adaptation |
-
2010
- 2010-12-27 JP JP2010291190A patent/JP5494468B2/ja not_active Expired - Fee Related
-
2011
- 2011-10-05 US US13/253,683 patent/US8996373B2/en not_active Expired - Fee Related
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01237600A (ja) * | 1988-03-17 | 1989-09-22 | A T R Jido Honyaku Denwa Kenkyusho:Kk | スペクトログラムの正規化方法 |
JPH0895592A (ja) * | 1994-09-21 | 1996-04-12 | Nippon Telegr & Teleph Corp <Ntt> | パターン認識方法 |
JPH10274992A (ja) * | 1997-01-30 | 1998-10-13 | Seiko Epson Corp | 音声モデル学習データ作成方法およびその装置 |
JP2005346471A (ja) * | 2004-06-03 | 2005-12-15 | Canon Inc | 情報処理方法、情報処理装置 |
JP2005352420A (ja) * | 2004-06-14 | 2005-12-22 | Nippon Telegr & Teleph Corp <Ntt> | 要約コンテンツ生成装置、生成方法及びそのプログラム |
JP2006113546A (ja) * | 2004-09-14 | 2006-04-27 | Honda Motor Co Ltd | 情報伝達装置 |
JP2011242755A (ja) * | 2010-04-22 | 2011-12-01 | Fujitsu Ltd | 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法 |
WO2012014301A1 (ja) * | 2010-07-29 | 2012-02-02 | ユニバーサルロボット株式会社 | 飲酒状態判定装置及び飲酒状態判定方法 |
Non-Patent Citations (2)
Title |
---|
JEN-TZUNG CHIEN: "Online Hierarchical Transformation of Hidden Markov Models for Speech Recognition", IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, vol. 7, no. 6, JPN6014004293, November 1999 (1999-11-01), US, pages 656 - 667, XP011054402, ISSN: 0002738879 * |
JUNICHI YAMAGISHI, ET AL.: "Analysis of Speaker Adaptation Algorithms for HMM-Based Speech Synthesis and a Constrained SMAPLR Ad", IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING, vol. 17, no. 1, JPN6014004295, January 2009 (2009-01-01), US, pages 66 - 83, XP011241212, ISSN: 0002738880, DOI: 10.1109/TASL.2008.2006647 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019107170A1 (ja) * | 2017-11-29 | 2019-06-06 | 日本電信電話株式会社 | 緊急度推定装置、緊急度推定方法、プログラム |
JPWO2019107170A1 (ja) * | 2017-11-29 | 2020-11-26 | 日本電信電話株式会社 | 緊急度推定装置、緊急度推定方法、プログラム |
JP6996570B2 (ja) | 2017-11-29 | 2022-01-17 | 日本電信電話株式会社 | 緊急度推定装置、緊急度推定方法、プログラム |
US11495245B2 (en) | 2017-11-29 | 2022-11-08 | Nippon Telegraph And Telephone Corporation | Urgency level estimation apparatus, urgency level estimation method, and program |
JP2021510851A (ja) * | 2018-01-26 | 2021-04-30 | 上海智臻智能網絡科技股▲ふん▼有限公司Shanghai Xiaoi Robot Technology Co.,Ltd. | インテリジェントインタラクション方法、装置、コンピュータデバイス及びコンピュータ読取可能な記憶媒体 |
US11373641B2 (en) | 2018-01-26 | 2022-06-28 | Shanghai Xiaoi Robot Technology Co., Ltd. | Intelligent interactive method and apparatus, computer device and computer readable storage medium |
US11721357B2 (en) | 2019-02-04 | 2023-08-08 | Fujitsu Limited | Voice processing method and voice processing apparatus |
Also Published As
Publication number | Publication date |
---|---|
US20120166195A1 (en) | 2012-06-28 |
JP5494468B2 (ja) | 2014-05-14 |
US8996373B2 (en) | 2015-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5494468B2 (ja) | 状態検出装置、状態検出方法および状態検出のためのプログラム | |
US11232788B2 (en) | Wakeword detection | |
KR102134201B1 (ko) | 숫자 음성 인식에 있어서 음성 복호화 네트워크를 구성하기 위한 방법, 장치, 및 저장 매체 | |
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
US9070367B1 (en) | Local speech recognition of frequent utterances | |
JP4355322B2 (ja) | フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置 | |
KR20200111853A (ko) | 전자 장치 및 전자 장치의 음성 인식 제어 방법 | |
US11495235B2 (en) | System for creating speaker model based on vocal sounds for a speaker recognition system, computer program product, and controller, using two neural networks | |
CN112037774B (zh) | 用于关键短语识别的系统和方法 | |
JP6654611B2 (ja) | 成長型対話装置 | |
JP6284462B2 (ja) | 音声認識方法、及び音声認識装置 | |
JP2012037619A (ja) | 話者適応化装置、話者適応化方法および話者適応化用プログラム | |
US11705105B2 (en) | Speech synthesizer for evaluating quality of synthesized speech using artificial intelligence and method of operating the same | |
JP5803125B2 (ja) | 音声による抑圧状態検出装置およびプログラム | |
JP6468258B2 (ja) | 音声対話装置および音声対話方法 | |
WO2018163279A1 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
US11282495B2 (en) | Speech processing using embedding data | |
KR20150035312A (ko) | 음성에 기반한 잠금 해제를 수행하는 사용자 장치, 음성에 기반한 사용자 장치의 잠금 해제 방법 및 컴퓨터 프로그램이 기록된 기록매체 | |
KR101598950B1 (ko) | 발음 평가 장치 및 이를 이용한 발음 평가 방법에 대한 프로그램이 기록된 컴퓨터 판독 가능한 기록 매체 | |
JP2016186516A (ja) | 疑似音声信号生成装置、音響モデル適応装置、疑似音声信号生成方法、およびプログラム | |
JP6526602B2 (ja) | 音声認識装置、その方法、及びプログラム | |
JP6183147B2 (ja) | 情報処理装置、プログラム、及び方法 | |
JP2021162685A (ja) | 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム | |
JP5949634B2 (ja) | 音声合成システム、及び音声合成方法 | |
CN113168438A (zh) | 用户认证方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130604 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20140110 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140204 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140217 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5494468 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |