JP2002221991A - データ照合システム及び方法 - Google Patents
データ照合システム及び方法Info
- Publication number
- JP2002221991A JP2002221991A JP2001019575A JP2001019575A JP2002221991A JP 2002221991 A JP2002221991 A JP 2002221991A JP 2001019575 A JP2001019575 A JP 2001019575A JP 2001019575 A JP2001019575 A JP 2001019575A JP 2002221991 A JP2002221991 A JP 2002221991A
- Authority
- JP
- Japan
- Prior art keywords
- model
- collation
- data
- model data
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
ケプストラム係数の系列から照合用モデル・データを作
成するモデル作成部5と、照合の元となる複数の登録モ
デル・データを格納する登録モデル格納部11と、照合用
モデル・データと登録モデル・データとを用いて照合処
理を実施するモデル間照合部9と、モデル間照合部9によ
る照合用モデル・データと登録モデル・データとの照合
結果を用いて、例えば上位一つ又は複数の登録モデル・
データに対応する登録モデルを特定する照合結果判定部
13とを有する。また、登録モデルを多段クラスタ化する
ことにより照合対象の数を減らしたり、モデル間照合の
結果を用いてさらに詳細な照合処理を実施することによ
り識別精度を向上させる場合もある。
Description
関し、より詳しくは話者認識技術に関する。
声は、マイクロフォン等である音声入力部100により
入力される。音声入力部100では、空気の振動である
音声波を電気信号に変換する。音声分析部102は、音
声の電気信号をディジタル化し、15msから30ms
程度の分析窓(フレームとも言う)で、5msから30
ms程度の分析周期(フレーム周期とも言う)毎に分析
処理を実施し、例えばLPC(Linear Predictive Codi
ng)ケプストラム係数の系列を生成する。音声分析部1
02における処理の概要を図2を用いて説明する。図2
に示すように、音声波に対して分析窓を分析周期ずつず
らして設定し、分析窓毎に所定の分析処理を施し、その
分析窓に対応するケプストラム係数Cijを出力する。例
えば、1回の分析処理により、10から20(次元)程
度のLPCケプストラム係数が計算される。ここでiは
フレーム番号であり、i=1〜Nで、Nはフレーム総数
である。jはLPCケプストラム係数の次元番号であ
り、j=1〜Mで、Mは次元数である。このように、音
声波からLPCケプストラム係数を出力する分析処理に
ついては周知であり、例えば社団法人電子情報通信学会
出版中山聖一著「確率モデルによる音声認識」の7乃至
12頁に記載されている。
ある場合には音声分析部102の分析結果を照合部10
8に出力し、一方現在の処理が話者登録である場合には
音声分析部102の分析結果をモデル作成部106に出
力する。モデル作成部106は、音声分析部102の分
析結果であるLPCケプストラム係数の系列のモデル化
を実施する。モデルの第1の例は平均モデルであり、以
下の式にて計算される。なお、上付きのTは転置を意味
する。 μ=(μ1,μ2,...μM)T (1)
0に登録される。
108で行なわれる計算は、以下の式で表される。
録された登録モデルであり、全てのμrについて距離D
を計算する。そして、照合結果判定部112は、例えば
最も距離Dが短い登録モデル、又は距離Dが短い上位所
定数の登録モデルを特定する。そして、例えば登録モデ
ルに対応する属性値(例えば顧客名、顧客番号等)が出
力される。
モデルであって、モデル作成部106は(1)式のμと
以下の式にて計算される共分散行列Σとを計算し、登録
モデル格納部110に格納する。
味)。そして、照合部108で行なわれる計算は、以下
の式で表される。
録された登録平均ベクトルであり、Σrは(5)式で計
算され登録モデル格納部110に登録された登録共分散
行列である。そして、照合結果判定部112は、例えば
尤度λが最も大きい登録モデル、又は尤度λが大きい上
位所定数の登録モデルを特定する。そして、例えば登録
モデルに対応する属性値(例えば顧客名、顧客番号等)
が出力される。
来技術では、(3)式又は(7)式の計算が一つの登録
モデルに対してフレーム数回照合部108で必要とな
り、さらに登録モデルの数が多い場合、処理量が膨大に
なる。例えば(7)式の計算が0.1秒で終了したとし
ても、登録モデルが10万個あれば、0.1秒×100
000個=10000秒=2.7時間かかり、とても実
用に耐えない。
照合処理技術を提供することである。より詳しくは、よ
り高速な話者認識処理技術を提供することである。
るデータ照合システムは、照合対象に関する時系列分析
データ(例えば実施の形態におけるLPCケプストラム
係数の系列)から当該照合対象の照合用モデル・データ
(例えば実施の形態における平均ベクトルμin及び共分
散行列Σin)を作成するモデル作成手段(例えば実施の
形態におけるモデル作成部5)と、照合の元となる複数
の登録照合用モデル・データ(例えば実施の形態におけ
る平均ベクトルμr及び共分散行列Σr)を格納するモデ
ル・データ格納装置(例えば実施の形態における登録モ
デル格納部11)と、照合対象の照合用モデル・データ
と登録照合用モデル・データとを用いて照合処理を実施
するモデル間照合処理手段(例えば実施の形態における
モデル間照合部9)と、モデル間照合処理手段による照
合対象の照合用モデル・データと登録照合用モデル・デ
ータとの照合結果を用いて、所定の条件(例えば実施の
形態のように尤度λが最も大きい又は例えば尤度λの値
上位所定数)に合致する登録照合用モデル・データに対
応する登録モデルを特定するモデル特定手段(例えば実
施の形態における照合結果判定部13)とを有する。
くは話者登録)時のみならず照合処理時でもモデル作成
処理が必要となるが、(3)式又は(7)式のようなフ
レーム数回の計算は不要となり、結果としてデータ照合
(より詳しくは話者照合)処理が高速化される。
は、照合対象者の音声データを分析して、時系列分析デ
ータである時系列の音声分析データを生成する手段をさ
らに有するような構成であってもよい。
ル・データ格納装置に格納された各登録照合用モデル・
データを、複数のクラスタのいずれかに分類し、いずれ
のクラスタに含まれるか判断するために用いられる各ク
ラスタの代表登録照合用モデル・データを決定するクラ
スタ構成手段をさらに有し、上で述べたモデル間照合処
理手段を、照合対象の照合用モデル・データと各クラス
タの代表登録照合用モデル・データとを用いて照合処理
を実施することにより、当該照合対象の照合用モデル・
データがいずれのクラスタに含まれるのか判断し、当該
照合対象の照合用モデル・データが含まれると判断され
たクラスタ内の各登録照合用モデル・データと照合対象
の照合用モデル・データとを用いて照合処理を実施する
ような構成とすることも可能である。代表登録照合用モ
デルによりクラスタが絞り込まれるので、照合処理の総
実施回数を減少させることができ、結果として照合処理
が高速化される。
デル・データ格納装置に格納された複数の登録照合用モ
デル・データを多段クラスタ化し、当該多段クラスタの
各段においていずれのクラスタに含まれるか判断するた
めに用いられる代表登録照合用モデル・データが当該各
段のノードに対応して規定されているクラスタ探索ツリ
ーを構成する多段クラスタ構成手段(例えば実施の形態
における多段クラスタ構成部17)をさらに有し、上で
述べたモデル間照合処理手段は、照合対象の照合用モデ
ル・データと多段クラスタ探索ツリーの各段のノードに
規定されている代表登録照合用モデル・データとを用い
て照合処理を実施することによりクラスタ探索ツリーの
探索を行い、照合対象の照合用モデル・データが含まれ
る最下層のクラスタが特定された場合には、当該最下層
のクラスタに含まれる各登録照合用モデル・データと照
合対象の照合用モデル・データとを用いて照合処理を実
施するような構成とすることも可能である。このように
多段クラスタ化することにより、より効率的にクラスタ
を絞り込むことができ、結果として照合処理がより高速
化される。
デル特定手段により特定された登録モデルに対応する登
録照合用モデル・データをモデル・データ格納装置から
取り出す特定モデル・データ取得手段(例えば実施の形
態におけるモデル取得部19)と、特定モデル・データ
取得手段により取り出された登録照合用モデル・データ
と、時系列分析データとを用いて第2の照合処理を実施
する第2照合処理手段(例えば実施の形態における照合
部21)とをさらに有するような構成であってもよい。
このようにモデル間照合処理を実施した後に、時系列分
析データを用いて第2の照合処理を実施することによ
り、データ照合(より詳しくは話者認識)の精度を上げ
ることができるようになる。
法は 照合対象に関する時系列分析データから当該照合
対象の照合用モデル・データを作成するステップと、照
合対象の照合用モデル・データと、モデル・データ格納
装置に格納された照合の元となる複数の登録照合用モデ
ル・データとを用いて照合処理を実施するモデル間照合
処理ステップと、モデル間照合処理ステップにおける照
合対象の照合用モデル・データと登録照合用モデル・デ
ータとの照合結果を用いて、所定の条件に合致する登録
照合用モデル・データに対応する登録モデルを特定する
ステップとを含む。
の第2の態様に適用可能である。
合方法をプログラムとコンピュータの組み合せにて実現
することができ、この場合、当該プログラムは、例えば
フロッピー(登録商標)・ディスク、CD−ROM、光
磁気ディスク、半導体メモリ、ハードディスク等の記憶
媒体又は記憶装置に格納される。また、処理途中のデー
タについては、コンピュータのメモリに一時保管され
る。
実施の形態のシステム概要図を図3に示す。なお、以下
ではデータ照合を話者照合の例を用いて説明する。音声
入力部1の出力は音声分析部3に入力される。音声分析
部3の出力は、モデル作成部5に入力される。モデル作
成部5の出力は切替部7に入力される。切替部7の出力
は、話者照合処理時にはモデル間照合部9に入力され、
話者登録処理時には登録モデル格納部11に格納され
る。モデル間照合部9は、登録モデル格納部11を参照
できるようになっており、その出力は照合結果判定部1
3に入力される。照合結果判定部13から照合結果が出
力される。処理目的が話者照合であるから、照合結果は
入力音声の話者が登録話者のうち誰であるかを示す情報
である。
る。話者の音声は、マイクロフォン等である音声入力部
100により入力される(ステップS1)。音声入力部
100では、空気の振動である音声波を電気信号に変換
する。次に、音声分析部102は、音声の電気信号をデ
ィジタル化し、15msから30ms程度の分析窓で、
5msから30ms程度のフレーム毎に音声分析を実施
し、時系列分析データ(例えばLPCケプストラム係数
の系列Cij)を生成する(ステップS3)。ここでiは
フレーム番号であり、i=1〜Nで、Nはフレーム総数
である。jはLPCケプストラム係数の次元番号であ
り、j=1〜Mで、Mは次元数である。
も話者登録の場合も、モデル作成部5が入力音声に対す
るモデル・データを生成する(ステップS5)。従来技
術の欄でも説明したモデルの第1の例(平均モデル)の
場合、(1)式で計算される平均ベクトルμinがモデル
・データである。すなわち、以下の計算がなされ、結果
が記憶装置に格納される。 μin=(μ1,μ2,...μM)T (8)
例(多次元正規分布モデル)の場合、モデル・データ
は、(1)式で計算される平均ベクトルμinと(5)式
で計算される共分散行列Σinである。共分散行列Σinを
計算する(9)式及び(9)式の計算に必要な(4)式
を再度示しておく。これらの計算結果も記憶装置に格納
される。
タを生成した後、音声入力前又は音声入力後に設定され
たモードに従って、話者照合か話者登録かを切替部10
4が判断する(ステップS7)。もし、話者照合でなく
話者登録時であると判断された場合には、モデル作成部
5により生成されたモデル・データを、切替部7は登録
モデル格納部11に登録する(ステップS13)。な
お、この際にはモデル・データに対応して話者の識別情
報等も登録される。
場合平均ベクトルμrと表し、第2の例の場合平均ベク
トルμr及び共分散行列Σrと表すものとする。
と判断された場合には、登録モデル格納部11に格納さ
れる各登録モデル・データと、入力音声に対するモデル
・データとの照合処理をモデル間照合部9が実行する
(ステップS9)。
は、以下のような計算を行うことにより実施される。 D=|μin−μr|2 (10) この計算を全ての登録モデル・データ(μr)に対して
実施し、距離Dを記憶装置に格納する。
合、以下のような計算を行う。
対して実施し、尤度λ prodを記憶装置に格納する。
置に格納された照合結果を用いて、照合結果判定部13
は、可能性が高い1又は複数の登録モデルを特定し、当
該登録モデルの属性を照合結果として出力する(ステッ
プS11)。より具体的には、第1の例(平均モデル)
の場合には、照合結果の距離Dが短い1又は複数の登録
モデルを特定する。距離が短い登録モデルということ
は、入力音声の話者に該当する可能性が高い登録モデル
ということである。第2の例(多次元正規分布モデル)
の場合には、尤度λprodが高い1又は複数の登録モデル
を特定する。最も可能性の高い1つの登録モデルを特定
するようにしてもよいし、上位5つ等上位所定数の登録
モデルを特定するような構成であってもよい。
力データに関する時系列分析データ(例えばLPCケプ
ストラム係数の系列)から当該照合対象の照合用モデル
・データ(例えば平均ベクトル、又は平均ベクトル及び
共分散行列)を生成する。そして、照合対象の照合用モ
デル・データと、登録モデル格納部11に格納された照
合の元となる複数の登録モデル・データとを用いて照合
処理を実施する。最後に、照合結果を用いて、所定の条
件(例えば最も可能性の高いもの又は可能性の高い上位
所定数など)に合致する登録モデル・データに対応する
登録モデルを特定する。
階を変更し、モデル間照合部9を導入することにより、
計算量が減少し、結果として処理速度の高速化が実現さ
れる。すなわち、照合処理のための(10)式や(1
1)式では、フレーム数には依存しなくなっている。よ
って、例えば入力音声が2000フレームに分けられる
ような場合、モデル・データ作成で必要となる処理量を
考慮しても演算回数は約1000分の1になる。
処理を実施する回数をさらに減らすための工夫について
説明する。実施の形態2のシステム概要を図5に示す。
図3と図5とを比較すると、図3におけるモデル間照合
部9の代わりに高速モデル間照合部15が設けられ、図
3には無い多段クラスタ構成部17が設けられる。多段
クラスタ構成部17は、登録モデル格納部11に格納さ
れた登録モデル・データを複数のクラスタに分類し、各
クラスタを代表する代表登録モデル・データを決定す
る。そして、高速モデル間照合部15は、当該代表登録
モデル・データと入力音声に対するモデル・データとの
照合処理を最初に行って、照合結果に基づき当該入力音
声に対するモデル・データが含まれるクラスタを特定す
る。その後、特定されたクラスタに含まれる登録モデル
・データと入力音声に対するモデル・データとの照合処
理を実施する。このようにすれば、クラスタの数にもよ
るが、照合処理の回数は減少する。例えば、登録モデル
の数をLとし、クラスタの数が2とすると、実施の形態
1ではL回行なわれる照合処理が、(L/2+2)回に
減少する。
2つの場合における処理の概要を説明する。図6(a)
に示すように、登録モデルの空間600が存在するもの
とする。例えば、上で述べた第1の例(平均モデル)の
場合には平均ベクトルの空間である。また、第2の例
(多次元正規分布モデル)の場合には、モデル間尤度に
より構成されるノルム空間である。以下では分かり易い
ように平均ベクトルの例で説明する。そして、多段クラ
スタ構成部17は、所定のアルゴリズムにてクラスタA
(610)の代表モデル及びクラスタB(620)の代
表モデルと、クラスタAに含まれる登録モデル及びクラ
スタBに含まれる登録モデルとを決定する。例えば、1
000個の登録モデルが存在する場合には、500個ず
つ各クラスタに含まれる登録モデルが決定される。
(b)に示すようにクラスタ探索ツリーを作成する。2
つのクラスタのみが存在する場合には、クラスタ探索ツ
リーは、ノード630と、クラスタAへのリンクと、ク
ラスタBへのリンクとを含む。例えばクラスタAには登
録モデル1乃至500が含まれ、クラスタBには登録モ
デル501乃至1000が含まれる。
高速モデル間照合部15は、ノード630に対応して規
定されるクラスタAの代表モデル・データと入力音声に
対するモデル・データとの照合処理と、クラスタBの代
表モデル・データと入力音声に対するモデル・データと
の照合処理とを行う。クラスタAの代表モデル・データ
との照合処理結果が、クラスタBの代表モデル・データ
との照合処理結果より可能性が高い(距離が短い又は尤
度が高い)場合には、入力音声に対するモデル・データ
はクラスタAに含まれると判断し、クラスタAに含まれ
る登録モデル1乃至500のモデル・データと入力音声
に対するモデル・データとの照合処理を実施する。一
方、クラスタBの代表モデル・データとの照合処理結果
が、クラスタAの代表モデル・データとの照合処理結果
より可能性が高い(距離が短い又は尤度が高い)場合に
は、入力音声に対するモデル・データはクラスタBに含
まれると判断し、クラスタBに含まれる登録モデル50
1乃至1000のモデル・データと入力音声に対するモ
デル・データとの照合処理を実施する。ここまで実行す
れば、実施の形態1と同じで、照合結果判定部13が可
能性の高い1又は複数の登録モデル・データを特定す
る。
タを分類し、各クラスタについて代表モデル・データを
決定するようにしてもよいが、登録モデルの空間を多段
クラスタに分割することも可能である。例えば、図7に
示すように、登録モデルの空間600をクラスタA(6
10)及びクラスタB(620)に分け、それぞれの代
表モデルを決定した後、クラスタAを2つのクラスタ6
11及び612に分け、さらにクラスタBを2つのクラ
スタ621及び622に分け、それぞれについて代表モ
デルを決定する。さらに、クラスタ611を2つのクラ
スタ613及び614に分け、それぞれについて代表モ
デルを決定する。また、クラスタ612を2つのクラス
タ615及び616に分け、それぞれについて代表モデ
ルを決定する。同様に、クラスタ621を2つのクラス
タ623及び624に分け、それぞれについて代表モデ
ルを決定する。また、クラスタ622を2つのクラスタ
625及び626に分け、それぞれについて代表モデル
を決定する。
タ化すると、図8(a)のようなクラスタ探索ツリーが
構成される。ノード630は、入力音声に対するモデル
・データがクラスタA(610)とクラスタB(62
0)のいずれかに含まれるか判断するためのノードであ
り、(610,620)と表す。ノード632は、ノー
ド630でクラスタA(610)に含まれると判断され
た場合に、入力音声に対するモデル・データがクラスタ
611とクラスタ612のいずれかに含まれるか判断す
るためのノードであり、(611,612)と表す。一
方、ノード634は、ノード630でクラスタB(62
0)に含まれると判断された場合に、入力音声に対する
モデル・データがクラスタ621とクラスタ622のい
ずれかに含まれるか判断するためのノードであり、(6
21,622)と表す。
611に含まれると判断された場合に、入力音声に対す
るモデル・データがクラスタ613とクラスタ614の
いずれかに含まれるか判断するためのノードであり、
(613,614)と表す。また、ノード638は、ノ
ード632でクラスタ612に含まれると判断された場
合に、入力音声に対するモデル・データがクラスタ61
5とクラスタ616のいずれかに含まれるか判断するた
めのノードであり、(615,616)と表す。
621に含まれると判断された場合に、入力音声に対す
るモデル・データがクラスタ623とクラスタ624の
いずれかに含まれるか判断するためのノードであり、
(623,624)と表す。また、ノード642は、ノ
ード634でクラスタ622に含まれると判断された場
合に、入力音声に対するモデル・データがクラスタ62
5とクラスタ626のいずれかに含まれるか判断するた
めのノードであり、(625,626)と表す。
スタを特定すると8個のクラスタに分けられ、1000
個の登録モデルが均等に分けられるとすると、クラスタ
613には登録モデル1乃至125、クラスタ614に
は登録モデル126乃至250、クラスタ615には登
録モデル251乃至375、クラスタ616には登録モ
デル376乃至500、クラスタ623には登録モデル
501乃至625、クラスタ624には登録モデル62
6乃至登録モデル750、クラスタ625には登録モデ
ル751乃至875、クラスタ626には登録モデル8
76乃至1000が含まれる。
図8(b)に示すように、最初のノード630でクラス
タA(610)とクラスタB(620)のいずれに含ま
れるか判断される。そして、もしクラスタA(610)
に含まれると判断されると、さらにクラスタ611又は
クラスタ612に含まれるかが判断される。そして、ク
ラスタ612に含まれると判断された場合には、クラス
タ615又はクラスタ616のいずれに含まれるかが判
断される。このよう探索が行なわれると、最下層のクラ
スタ615に含まれることが分かるため、最下層のクラ
スタに含まれる各登録モデル・データとの照合処理が実
施される。図8(a)のような探索ツリーの場合、3ノ
ード×2個=6個の代表モデル・データと入力音声に対
するモデル・データとの照合処理を実施し、最下層のク
ラスタ615に含まれる登録モデル・データ125個と
の照合処理が実施される。
実施する照合処理のフローを説明する。なお、図9の処
理は、図4の処理フローのステップS9の代わりに実施
するものである。最初に、クラスタ探索ツリーのノード
に規定された2つの代表モデルのモデル・データと、入
力音声に対するモデル・データとの照合処理を実施する
(ステップS21)。そして、2つの照合結果により、
可能性の高い(例えば距離が短い又は尤度が高い)代表
モデルを特定する(ステップS23)。そして、ステッ
プS21で処理したノードがクラスタ探索ツリーで最下
層ノードであるかを判断する(ステップS25)。も
し、最下層ノードでなければ、可能性の高い代表モデル
のリンクに分岐して、次のノードの処理に移行する(ス
テップS27)。一方、最下層ノードであると判断され
た場合には、可能性の高い代表モデルに対応するクラス
タに含まれる登録モデルのモデル・データと入力音声に
対するモデル・データとの照合処理を実施する(ステッ
プS29)。そして、図4のステップS11に戻る。
ラスタ構成部17が実施するクラスタリングの処理フロ
ーの一例を説明しておく。ここでは周知のLBGアルゴ
リズムとLBGアルゴリズムを用いた2分割繰り返しア
ルゴリズムを説明しておく。図10はLBGアルゴリズ
ムを表したフローであり、最初に初期化処理を実施する
(ステップS31)。ここでは、n個の登録モデルの平
均ベクトルを{μj;j=0,...n−1}とする。
また、代表モデル(クラスタ)の数をN個とする。ま
た、代表モデルの初期集合をA0 (N)={z0 (0),...
zN-1 (0)}、繰り返しカウンタm=0、ε=ひずみ閾
値、ひずみD-1=∞を設定する。
(N)によってN個のクラスタ{Si;i=1,..N}に
分割する(ステップS33)。すなわち、全てのtにつ
いてd(μj,zi (m))<d(μj,zt (m))であれば、
μj∈Siとする。なお、d(x,y)はxとyの距離で
ある。また、zi (m)はm回繰り返した場合のi番目の代
表モデル(但しt番目の代表モデルを除く)である。
ップS35)。Dmは以下の式で計算される。
かを判断する(ステップS37)。もし、この条件が成
り立つ場合には、ひずみの小さいクラスタリングが行わ
れたことになり、処理を終了する。一方、この条件が成
り立たない場合には、新たな代表モデルAm+1 (N)={z
0 (m+1),...zN-1 (m+1)}を決定し、繰り返しカウン
タmを1インクリメントする(ステップS39)。そし
てステップS33に戻って、処理を繰り返す。なお、新
たな代表モデルAm+1 (N)は以下の式で計算される。
iに含まれる他の登録モデルμjとの距離dの総和をkで
除した値が最も小さくなるようなクラスタSiに含まれ
る登録モデルμを求めるということである。
ない複数のクラスタSiが構成される。(なお、後処理
にて多段にすることも可能である。)一方図11と図1
0を組み合せると多段クラスタが構成できる。図11で
は最初に、初期化を実施する。ここでは、Δを大きさの
小さい適当なベクトルとし、M=1とし、A0,1=C
(μ1,μ2,..μn)を設定する。なお、C(μ1,μ
2,..μn)はセントロイドベクトルであって、以下の
ような式で計算される。
あって、他の登録モデルμjとの距離の総和をnで除し
た値が最も小さくないような登録モデルμを求めるとい
うものである。
M-1}に対して、各ziを近接した2つのベクトルzi+
Δとzi−Δに分け、{z0-Δ,z0+Δ,z1-Δ,z1+
Δ,...zM-1-Δ,zM-1+Δ}をA0,2M={z0,
z1,...z2M-1}とする(ステップS43)。これ
は、1個の代表モデルを2個に、2個の代表モデルを4
個に、..、n個の代表モデルを2n個にするための処
理である。
LBGアルゴリズムを実行する。そうすると各クラスタ
に含まれる登録モデルと、準最適な代表モデルとが決定
される。また、処理後の代表モデルA0,2Mを登録する
(ステップS45)。その後、2M=N(クラスタ数)
となっているかを判断する(ステップS47)。一方、
2M=Nとなっていない場合には、M=2Mとしてステ
ップS43に戻り、さらに代表モデルを2倍に増やして
処理を繰り返す。
実行する毎に図8(a)の各ノードに規定されるべき代
表ノードが決定されてゆき、2M=Nとなっていれば、
最下層の各クラスタSiに対応してそのクラスタに含ま
れる登録モデルも確定される。なお、多段クラスタ構成
部17は、あるタイミングで登録モデル格納部11に格
納されている登録モデルについて上のような処理を実施
する。時々追加される新規な登録モデルについては、一
度クラスタ探索ツリーの探索を実施してみて、いずれの
クラスタに属するかを判定することにより、分類を行
う。
ル格納部11に格納された複数の登録モデル・データを
多段クラスタ化し、当該多段クラスタの各段においてい
ずれのクラスタに含まれるか判断するために用いられる
代表モデル・データが当該各段のノードに対応して規定
されているクラスタ探索ツリーを構成する多段クラスタ
構成部17を実施の形態1のシステムに加え、モデル間
照合部9の代わりの高速モデル間照合部15は、照合対
象の照合用モデル・データと多段クラスタ探索ツリーの
各段のノードに規定されている代表モデル・データとを
用いて照合処理を実施することによりクラスタ探索ツリ
ーの探索を行い、照合対象の照合用モデル・データが含
まれる最下層のクラスタが特定された場合には、当該最
下層のクラスタに含まれる各登録モデル・データと照合
対象の照合用モデル・データとを用いて照合処理を実施
する。この後、照合結果を用いて、所定の条件(例えば
最も可能性の高いもの又は可能性の高い上位所定数な
ど)に合致する登録モデル・データに対応する登録モデ
ルを特定する。
数分の1に減少させることができるようになり、結果と
して処理速度が向上する。
は、演算回数を減らすための工夫を示していたが、モデ
ル間の照合では第1及び第2の例とも平均ベクトルμを
用いて計算するため認識精度は若干落ちる場合がある。
そこで実施の形態3では、処理速度を向上させ且つ認識
精度を向上させる。
2に示す。図3と図12を比較すると、照合結果判定部
13の出力が、新たに設けられたモデル取得部19に入
力され、モデル取得部19は登録モデル格納部11を参
照するようにもなっている。そして、モデル取得部19
の出力は新たに設けられた照合部21に出力される。ま
た、照合部21には、音声分析部3が生成する時系列分
析データも入力されるようになっている。最終的な照合
結果は、照合部21から出力されるようになっている。
を図13に示す。話者の音声は、マイクロフォン等であ
る音声入力部100により入力される(ステップS5
1)。音声入力部100では、空気の振動である音声波
を電気信号に変換する。次に、音声分析部102は、音
声の電気信号をディジタル化し、所定の分析窓で、所定
のフレーム周期毎に音声分析を実施し、時系列分析デー
タ(例えばLPCケプストラム係数の系列Cij)を生成
する(ステップS53)。
も、モデル作成部5が入力音声に対するモデル・データ
を生成する(ステップS55)。従来技術の欄でも説明
したモデルの第1の例(平均モデル)の場合、(8)式
で計算される平均ベクトルμinがモデル・データであ
る。モデルの第2の例(多次元正規分布モデル)の場
合、モデル・データは、(8)式で計算される平均ベク
トルμinと(9)式で計算される共分散行列Σinであ
る。
タを生成した後、音声入力前又は音声入力後に設定され
たモードに従って、話者照合か話者登録かを切替部7が
判断する(ステップS57)。もし、話者照合でなく話
者登録時であると判断された場合には、モデル作成部5
により生成されたモデル・データを、切替部7は登録モ
デル格納部11に登録する(ステップS69)。なお、
この際にはモデル・データに対応して話者の識別情報等
も登録される。
場合平均ベクトルμrと表し、第2の例の場合平均ベク
トルμr及び共分散行列Σrと表すものとする。
と判断された場合には、登録モデル格納部11に格納さ
れる各登録モデル・データと、入力音声に対するモデル
・データとの照合処理をモデル間照合部9が実行する
(ステップS59)。第1の例(平均モデル)の場合の
照合処理は(10)式により計算される。この計算を全
ての登録モデル・データ(μr)に対して実施し、距離
Dを記憶装置に格納する。
合、(11)(12)及び(13)式の計算を行う。こ
の計算を全ての登録モデル・データ(μr及びΣr)に対
して実施し、尤度λprodを記憶装置に格納する。
置に格納された照合結果を用いて、照合結果判定部13
は、可能性が高い1又は複数の登録モデルを特定し、当
該登録モデルの属性を照合結果として出力する(ステッ
プS61)。より具体的には、第1の例(平均モデル)
の場合には、照合結果の距離Dが短い1又は複数の登録
モデルを特定する。距離が短い登録モデルということ
は、入力音声の話者が該当する可能性が高い登録モデル
ということである。第2の例(多次元正規分布モデル)
の場合には、尤度λprodが高い1又は複数の登録モデル
を特定する。ここまでは図4の処理とほぼ同じである。
取得部19に出力される。そして、モデル取得部19
は、特定された登録モデルのモデル・データを再度登録
モデル格納部11から取得する(ステップS63)。こ
のモデル・データは、第1の例の場合平均ベクトルμr
であり、第2の例の場合平均ベクトルμr及び共分散行
列Σrである。この取得された登録モデルのモデル・デ
ータは照合部21に出力される。
時系列分析データと、特定された登録モデルのモデル・
データとを用いて詳細照合処理を実施する(ステップS
65)。この詳細照合処理は、例えば従来技術の欄で説
明した照合処理であって、ここに再度示しておく。第1
の例(平均モデル)の場合には、以下の式となる。
ム係数のベクトルyiと登録モデルμrとの距離の総和D
を計算する。そして、ステップS61で特定された各登
録モデルの距離D(詳細照合処理結果)を比較して、最
も短い(最も可能性の大きい)登録モデルを最も可能性
の高い登録モデルとして特定し、当該登録モデルの属性
(例えば顧客識別情報等)を出力する(ステップS6
7)。
の場合、(6)及び(7)式にて計算される。ここに再
度示すと以下のとおりである。
定し、当該登録モデルに対応する属性値(例えば顧客識
別情報等)を出力する(ステップS67)。
力データに関する時系列分析データ(例えばLPCケプ
ストラム係数の系列)から当該照合対象の照合用モデル
・データ(例えば平均ベクトル、又は平均ベクトル及び
共分散行列)を生成する。そして、照合対象の照合用モ
デル・データと、登録モデル格納部11に格納された照
合の元となる複数の登録モデル・データとを用いて照合
処理を実施する。この照合結果を用いて、所定の条件
(例えば最も可能性の高いもの又は可能性の高い上位所
定数など)に合致する登録モデル・データに対応する登
録モデルを特定する。そして、第1の照合処理により特
定された登録モデルに対応する登録モデル・データを登
録データ格納部11から取り出すデータ取得部19と、
データ取得部19により取り出された登録モデル・デー
タと、入力音声に対する時系列分析データ(例えばLP
Cケプストラム係数の系列)とを用いて第2の照合処理
を実施する。
照合処理を実施する照合部21で詳細照合処理を実施す
る対象を絞り込むため、たとえ詳細照合処理にて演算回
数が増加しても全体としては高速化される。一方、詳細
照合処理を実施するので認識精度は従来と変わらない。
形態2及び実施の形態3の組み合せである。すなわち、
音声入力部1の出力は音声分析部3に入力され、音声分
析部3の出力はモデル作成部5及び照合部21に入力さ
れる。モデル作成部5の出力は切替部7に入力され、切
替部7は話者照合処理時には高速モデル間照合部15に
モデル作成部5の出力を切り替え、話者登録時には登録
モデル格納部11にモデル作成部5の出力を格納するよ
うな構成となっている。高速モデル間照合部15は、登
録モデル格納部11に格納された登録モデル・データを
参照し、処理結果を照合結果判定部13に出力する。照
合結果判定部13の出力はモデル取得部19に入力さ
れ、モデル取得部19は登録モデル格納部11を参照で
きるようになっている。モデル取得部19の出力は、照
合部21に入力され、照合部21は音声分析部3及びモ
デル取得部19の出力を用いて処理を行い、最終的な照
合結果を出力する。なお、多段クラスタ構成部17は、
登録モデル格納部11を参照して、処理を実施するよう
な構成となっている。
13に示したものとほぼ同じである。但し、ステップS
59の処理は、実施の形態2と同じように図9の処理フ
ローに置き換えられる。また、多段クラスタ構成部17
の処理は、例えば実施の形態2で説明した図10及び図
11の処理を実施する。
る処理速度の向上と、実施の形態3における認識精度の
向上の両方を達成することができるようになる。
本発明はこれらの実施の形態に限定されるものではな
い。例えば、時系列分析データの例として、LPCケプ
ストラム係数の系列を例にして説明したが、照合対象に
関する他の時系列分析データであってもよい。さらに、
モデルについては平均モデルと、多次元正規分布モデル
とを用いて説明したが、時系列分析データを用いて生成
される他のモデルを採用することも可能である。また、
照合結果が上位所定数の登録モデルとなる例を示した
が、具体的な閾値を設定してそれを超える距離又は尤度
を有する登録モデルを特定するような構成であってもよ
い。なお、音声についての処理例を示したが、例えば動
画像などの他のデータに適用することも可能である。
ュータにて実現することも可能であるし、複数台のコン
ピュータにて実現することも可能である。さらに、音声
入力は、インターネット等のネットワークや、公衆回線
網を介しての入力であってもよい。話者識別の結果は様
々な用途に用いることができる。
ハードウエアとコンピュータ・プログラムの組み合せで
実現することも可能であるし、一部又は全部を専用の電
子回路で実現することも可能である。コンピュータ・プ
ログラムは、例えばフロッピー・ディスク、CD−RO
M、光磁気ディスク、半導体メモリ、ハードディスク等
の記憶媒体又は記憶装置に格納される。また、当該コン
ピュータ・プログラムはネットワークを介して送信され
ることもある。なお、処理途中のデータについては、コ
ンピュータのメモリに一時保管される。
高速なデータ照合処理技術、より詳しくは高速な話者認
識処理技術を提供することができた。
る。
る。
(b)はクラスタリングにより生成されるクラスタ探索
ツリーの例を説明をするための図である。
クラスタ探索ツリーの例を示す図である。(b)はツリ
ーの探索を説明するための図である。
る。
る。
る。
ある。
る。
部 7 切替部 9 モデル間照合部 11 登録モデル格納部 1
3 照合結果判定部 15 高速モデル間照合部 17 多段クラスタ構成
部 19 モデル取得部 21 照合部
Claims (12)
- 【請求項1】データ照合システムであって、 照合対象に関する時系列分析データから当該照合対象の
照合用モデル・データを作成するモデル作成手段と、 照合の元となる複数の登録照合用モデル・データを格納
するモデル・データ格納装置と、 前記照合対象の照合用モデル・データと前記登録照合用
モデル・データとを用いて照合処理を実施するモデル間
照合処理手段と、 前記モデル間照合処理手段による前記照合対象の照合用
モデル・データと前記登録照合用モデル・データとの照
合結果を用いて、所定の条件に合致する登録照合用モデ
ル・データに対応する登録モデルを特定するモデル特定
手段と、 を有するデータ照合システム。 - 【請求項2】照合対象者の音声データを分析して、前記
時系列分析データである時系列の音声分析データを生成
する手段をさらに有する請求項1記載のデータ照合シス
テム。 - 【請求項3】前記モデル・データ格納装置に格納された
各前記登録照合用モデル・データを、複数のクラスタの
いずれかに分類し、いずれのクラスタに含まれるか判断
するために用いられる各クラスタの代表登録照合用モデ
ル・データを決定するクラスタ構成手段、 をさらに有し、 前記モデル間照合処理手段は、前記照合対象の照合用モ
デル・データと前記各クラスタの代表登録照合用モデル
・データとを用いて照合処理を実施することにより、当
該照合対象の照合用モデル・データがいずれのクラスタ
に含まれるのか判断し、当該照合対象の照合用モデル・
データが含まれると判断されたクラスタ内の各登録照合
用モデル・データと前記照合対象の照合用モデル・デー
タとを用いて照合処理を実施することを特徴とする請求
項1又は2記載のデータ照合システム。 - 【請求項4】前記モデル・データ格納装置に格納された
前記複数の登録照合用モデル・データを多段クラスタ化
し、当該多段クラスタの各段においていずれのクラスタ
に含まれるか判断するために用いられる代表登録照合用
モデル・データが当該各段のノードに対応して規定され
ているクラスタ探索ツリーを構成する多段クラスタ構成
手段、 をさらに有し、 前記モデル間照合処理手段は、前記照合対象の照合用モ
デル・データと前記多段クラスタ探索ツリーの各段のノ
ードに規定されている前記代表登録照合用モデル・デー
タとを用いて照合処理を実施することにより前記クラス
タ探索ツリーの探索を行い、前記照合対象の照合用モデ
ル・データが含まれる最下層のクラスタが特定された場
合には、当該最下層のクラスタに含まれる各登録照合用
モデル・データと前記照合対象の照合用モデル・データ
とを用いて照合処理を実施することを特徴とする請求項
1又は2記載のデータ照合システム。 - 【請求項5】前記モデル特定手段により特定された登録
モデルに対応する登録照合用モデル・データを前記モデ
ル・データ格納装置から取り出す特定モデル・データ取
得手段と、 前記特定モデル・データ取得手段により取り出された前
記登録照合用モデル・データと、前記時系列分析データ
とを用いて第2の照合処理を実施する第2照合処理手段
と、 をさらに有する請求項1乃至4のいずれか記載のデータ
照合システム。 - 【請求項6】データ照合方法であって、 照合対象に関する時系列分析データから当該照合対象の
照合用モデル・データを作成するステップと、 前記照合対象の照合用モデル・データと、モデル・デー
タ格納装置に格納された照合の元となる複数の登録照合
用モデル・データとを用いて照合処理を実施するモデル
間照合処理ステップと、 前記モデル間照合処理ステップにおける前記照合対象の
照合用モデル・データと前記登録照合用モデル・データ
との照合結果を用いて、所定の条件に合致する登録照合
用モデル・データに対応する登録モデルを特定するステ
ップと、 を含むデータ照合方法。 - 【請求項7】データ照合プログラムであって、 コンピュータに、 照合対象に関する時系列分析データから当該照合対象の
照合用モデル・データを作成するステップと、 前記照合対象の照合用モデル・データと、モデル・デー
タ格納装置に格納された照合の元となる複数の登録照合
用モデル・データとを用いて照合処理を実施するモデル
間照合処理ステップと、 前記モデル間照合処理ステップにおける前記照合対象の
照合用モデル・データと前記登録照合用モデル・データ
との照合結果を用いて、所定の条件に合致する登録照合
用モデル・データに対応する登録モデルを特定するモデ
ル特定ステップと、 を実行させるためのデータ照合プログラム。 - 【請求項8】照合対象者の音声データを分析して、前記
時系列分析データである時系列の音声分析データを生成
するステップをコンピュータにさらに実行させるための
請求項7記載のデータ照合プログラム。 - 【請求項9】前記モデル・データ格納装置に格納された
各前記登録照合用モデル・データを、複数のクラスタの
いずれかに分類し、いずれのクラスタに含まれるか判断
するために用いられる各クラスタの代表登録照合用モデ
ル・データを決定するステップ、 をコンピュータにさらに実行させ、 前記モデル間照合処理ステップにおいて、前記照合対象
の照合用モデル・データと前記各クラスタの代表登録照
合用モデル・データとを用いて照合処理を実施すること
により、当該照合対象の照合用モデル・データがいずれ
のクラスタに含まれるのか判断し、当該照合対象の照合
用モデル・データが含まれると判断されたクラスタ内の
各登録照合用モデル・データと前記照合対象の照合用モ
デル・データとを用いて照合処理を実施することを特徴
とする請求項7又は8記載のデータ照合プログラム。 - 【請求項10】前記モデル・データ格納装置に格納され
た前記複数の登録照合用モデル・データを多段クラスタ
化し、当該多段クラスタの各段においていずれのクラス
タに含まれるか判断するために用いられる代表登録照合
用モデル・データが当該各段のノードに対応して規定さ
れているクラスタ探索ツリーを構成するステップ、 をコンピュータにさらに実行させ、 前記モデル間照合処理ステップにおいて、前記照合対象
の照合用モデル・データと前記多段クラスタ探索ツリー
の各段のノードに規定されている前記代表登録照合用モ
デル・データとを用いて照合処理を実施することにより
前記クラスタ探索ツリーの探索を行い、前記照合対象の
照合用モデル・データが含まれる最下層のクラスタが特
定された場合には、当該最下層のクラスタに含まれる各
登録照合用モデル・データと前記照合対象の照合用モデ
ル・データとを用いて照合処理を実施することを特徴と
する請求項7又は8記載のデータ照合プログラム。 - 【請求項11】前記モデル特定ステップにおいて特定さ
れた登録モデルに対応する登録照合用モデル・データを
前記モデル・データ格納装置から取り出す特定モデル・
データ取得ステップと、 前記特定モデル・データ取得ステップにおいて取り出さ
れた前記登録照合用モデル・データと、前記時系列分析
データとを用いて第2の照合処理を実施するステップ
と、 をコンピュータにさらに実行させるための請求項7乃至
10のいずれか記載のデータ照合プログラム。 - 【請求項12】データ照合プログラムを格納した記録媒
体であって、 前記データ照合プログラムは、コンピュータに、 照合対象に関する時系列分析データから当該照合対象の
照合用モデル・データを作成するステップと、 前記照合対象の照合用モデル・データと、モデル・デー
タ格納装置に格納された照合の元となる複数の登録照合
用モデル・データとを用いて照合処理を実施するモデル
間照合処理ステップと、 前記モデル間照合処理ステップにおける前記照合対象の
照合用モデル・データと前記登録照合用モデル・データ
との照合結果を用いて、所定の条件に合致する登録照合
用モデル・データに対応する登録モデルを特定するモデ
ル特定ステップと、 を実行させるためのプログラムである、記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001019575A JP4738606B2 (ja) | 2001-01-29 | 2001-01-29 | データ照合システム及び方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001019575A JP4738606B2 (ja) | 2001-01-29 | 2001-01-29 | データ照合システム及び方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002221991A true JP2002221991A (ja) | 2002-08-09 |
JP4738606B2 JP4738606B2 (ja) | 2011-08-03 |
Family
ID=18885429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001019575A Expired - Fee Related JP4738606B2 (ja) | 2001-01-29 | 2001-01-29 | データ照合システム及び方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4738606B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4438014B1 (ja) * | 2008-11-06 | 2010-03-24 | 株式会社ネイクス | 有害顧客検知システム、その方法及び有害顧客検知プログラム |
JP2014502374A (ja) * | 2010-12-10 | 2014-01-30 | パナソニック株式会社 | 話者認識のためのモデリング・デバイスおよび方法、ならびに話者認識システム |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6346496A (ja) * | 1986-04-04 | 1988-02-27 | 株式会社リコー | 音声認識装置 |
JPS63213899A (ja) * | 1987-03-02 | 1988-09-06 | 株式会社リコー | 話者照合方式 |
JPH07287593A (ja) * | 1994-04-12 | 1995-10-31 | Xerox Corp | スピーカーデータのクラスタリング方法 |
JPH1097274A (ja) * | 1996-09-24 | 1998-04-14 | Kokusai Denshin Denwa Co Ltd <Kdd> | 話者認識方法及び装置 |
JPH10260988A (ja) * | 1997-03-21 | 1998-09-29 | Nippon Hoso Kyokai <Nhk> | クラスタリング方法 |
JP2000298498A (ja) * | 1999-03-11 | 2000-10-24 | Fuji Xerox Co Ltd | オーディオ・ビジュアル記録物をセグメント化する方法およびコンピュータ記憶媒体、並びにコンピュータシステム |
-
2001
- 2001-01-29 JP JP2001019575A patent/JP4738606B2/ja not_active Expired - Fee Related
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6346496A (ja) * | 1986-04-04 | 1988-02-27 | 株式会社リコー | 音声認識装置 |
JPS63213899A (ja) * | 1987-03-02 | 1988-09-06 | 株式会社リコー | 話者照合方式 |
JPH07287593A (ja) * | 1994-04-12 | 1995-10-31 | Xerox Corp | スピーカーデータのクラスタリング方法 |
JPH1097274A (ja) * | 1996-09-24 | 1998-04-14 | Kokusai Denshin Denwa Co Ltd <Kdd> | 話者認識方法及び装置 |
JPH10260988A (ja) * | 1997-03-21 | 1998-09-29 | Nippon Hoso Kyokai <Nhk> | クラスタリング方法 |
JP2000298498A (ja) * | 1999-03-11 | 2000-10-24 | Fuji Xerox Co Ltd | オーディオ・ビジュアル記録物をセグメント化する方法およびコンピュータ記憶媒体、並びにコンピュータシステム |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4438014B1 (ja) * | 2008-11-06 | 2010-03-24 | 株式会社ネイクス | 有害顧客検知システム、その方法及び有害顧客検知プログラム |
JP2010113167A (ja) * | 2008-11-06 | 2010-05-20 | Neikusu:Kk | 有害顧客検知システム、その方法及び有害顧客検知プログラム |
JP2014502374A (ja) * | 2010-12-10 | 2014-01-30 | パナソニック株式会社 | 話者認識のためのモデリング・デバイスおよび方法、ならびに話者認識システム |
Also Published As
Publication number | Publication date |
---|---|
JP4738606B2 (ja) | 2011-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5853029B2 (ja) | 話者照合のためのパスフレーズ・モデリングのデバイスおよび方法、ならびに話者照合システム | |
JP5423670B2 (ja) | 音響モデル学習装置および音声認識装置 | |
JP3627299B2 (ja) | 音声認識方法及び装置 | |
KR102294638B1 (ko) | 잡음 환경에 강인한 화자 인식을 위한 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치 | |
KR20040037180A (ko) | 학습 모델 부분들을 사용하는 안면 인식 시스템 및 방법 | |
JP2002014692A (ja) | 音響モデル作成装置及びその方法 | |
JP2005062866A (ja) | コンパクトな音響モデルを作成するためのバブル分割方法 | |
JP2018194828A (ja) | マルチビューベクトルの処理方法及び装置 | |
CN115428469A (zh) | 用于无声视频的ai辅助音效生成 | |
CN112861984A (zh) | 一种基于特征融合与集成学习的语音情感分类方法 | |
Pei et al. | Multimodal dimensional affect recognition using deep bidirectional long short-term memory recurrent neural networks | |
Awasthi et al. | Teaching keyword spotters to spot new keywords with limited examples | |
US5864807A (en) | Method and apparatus for training a speaker recognition system | |
CN113611293A (zh) | 一种蒙古语数据集扩充方法 | |
Jourlin | Word-dependent acoustic-labial weights in HMM-based speech recognition | |
Thiruvengatanadhan | Music genre classification using gmm | |
JP4738606B2 (ja) | データ照合システム及び方法 | |
JP7006402B2 (ja) | クラスタリングプログラム、クラスタリング方法およびクラスタリング装置 | |
US20130060788A1 (en) | Methods for recognition of multidimensiional patterns cross-reference to related applications | |
CN113870896A (zh) | 基于时频图和卷积神经网络的运动声音判假方法、装置 | |
CN114023336A (zh) | 模型训练方法、装置、设备以及存储介质 | |
CN112863549A (zh) | 一种基于元-多任务学习的语音情感识别方法及装置 | |
WO2010076386A2 (en) | Method for a pattern discovery and recognition | |
Batlle et al. | Scalability issues in an HMM-based audio fingerprinting | |
CN111312215A (zh) | 一种基于卷积神经网络和双耳表征的自然语音情感识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20070828 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080128 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100716 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100803 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100924 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110426 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110427 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 4738606 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140513 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |