JP2002221991A - データ照合システム及び方法 - Google Patents

データ照合システム及び方法

Info

Publication number
JP2002221991A
JP2002221991A JP2001019575A JP2001019575A JP2002221991A JP 2002221991 A JP2002221991 A JP 2002221991A JP 2001019575 A JP2001019575 A JP 2001019575A JP 2001019575 A JP2001019575 A JP 2001019575A JP 2002221991 A JP2002221991 A JP 2002221991A
Authority
JP
Japan
Prior art keywords
model
collation
data
model data
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001019575A
Other languages
English (en)
Other versions
JP4738606B2 (ja
Inventor
Akihiro Kimura
晋太 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Animo Ltd
Original Assignee
Animo Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Animo Ltd filed Critical Animo Ltd
Priority to JP2001019575A priority Critical patent/JP4738606B2/ja
Publication of JP2002221991A publication Critical patent/JP2002221991A/ja
Application granted granted Critical
Publication of JP4738606B2 publication Critical patent/JP4738606B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】より高速な話者識別処理技術を提供すること。 【解決手段】本データ照合システムは、入力音声のLPC
ケプストラム係数の系列から照合用モデル・データを作
成するモデル作成部5と、照合の元となる複数の登録モ
デル・データを格納する登録モデル格納部11と、照合用
モデル・データと登録モデル・データとを用いて照合処
理を実施するモデル間照合部9と、モデル間照合部9によ
る照合用モデル・データと登録モデル・データとの照合
結果を用いて、例えば上位一つ又は複数の登録モデル・
データに対応する登録モデルを特定する照合結果判定部
13とを有する。また、登録モデルを多段クラスタ化する
ことにより照合対象の数を減らしたり、モデル間照合の
結果を用いてさらに詳細な照合処理を実施することによ
り識別精度を向上させる場合もある。

Description

【発明の詳細な説明】
【0001】
【発明が属する技術分野】本発明は、データ照合技術に
関し、より詳しくは話者認識技術に関する。
【0002】
【従来の技術】図1に従来技術の一例を示す。話者の音
声は、マイクロフォン等である音声入力部100により
入力される。音声入力部100では、空気の振動である
音声波を電気信号に変換する。音声分析部102は、音
声の電気信号をディジタル化し、15msから30ms
程度の分析窓(フレームとも言う)で、5msから30
ms程度の分析周期(フレーム周期とも言う)毎に分析
処理を実施し、例えばLPC(Linear Predictive Codi
ng)ケプストラム係数の系列を生成する。音声分析部1
02における処理の概要を図2を用いて説明する。図2
に示すように、音声波に対して分析窓を分析周期ずつず
らして設定し、分析窓毎に所定の分析処理を施し、その
分析窓に対応するケプストラム係数Cijを出力する。例
えば、1回の分析処理により、10から20(次元)程
度のLPCケプストラム係数が計算される。ここでiは
フレーム番号であり、i=1〜Nで、Nはフレーム総数
である。jはLPCケプストラム係数の次元番号であ
り、j=1〜Mで、Mは次元数である。このように、音
声波からLPCケプストラム係数を出力する分析処理に
ついては周知であり、例えば社団法人電子情報通信学会
出版中山聖一著「確率モデルによる音声認識」の7乃至
12頁に記載されている。
【0003】切替部104は、現在の処理が話者照合で
ある場合には音声分析部102の分析結果を照合部10
8に出力し、一方現在の処理が話者登録である場合には
音声分析部102の分析結果をモデル作成部106に出
力する。モデル作成部106は、音声分析部102の分
析結果であるLPCケプストラム係数の系列のモデル化
を実施する。モデルの第1の例は平均モデルであり、以
下の式にて計算される。なお、上付きのTは転置を意味
する。 μ=(μ1,μ2,...μMT (1)
【数1】 (1)式で計算されるモデルは、登録モデル格納部11
0に登録される。
【0004】そして、第1のモデル例の場合に、照合部
108で行なわれる計算は、以下の式で表される。
【数2】 i=(Ci1,Ci2,...CiMT (4) μrは(1)式で計算され登録モデル格納部110に登
録された登録モデルであり、全てのμrについて距離D
を計算する。そして、照合結果判定部112は、例えば
最も距離Dが短い登録モデル、又は距離Dが短い上位所
定数の登録モデルを特定する。そして、例えば登録モデ
ルに対応する属性値(例えば顧客名、顧客番号等)が出
力される。
【0005】また、モデルの第2の例は多次元正規分布
モデルであって、モデル作成部106は(1)式のμと
以下の式にて計算される共分散行列Σとを計算し、登録
モデル格納部110に格納する。
【数3】 なお、μinは(1)式で計算される(inは入力の意
味)。そして、照合部108で行なわれる計算は、以下
の式で表される。
【数4】 μrは(1)式で計算され登録モデル格納部110に登
録された登録平均ベクトルであり、Σrは(5)式で計
算され登録モデル格納部110に登録された登録共分散
行列である。そして、照合結果判定部112は、例えば
尤度λが最も大きい登録モデル、又は尤度λが大きい上
位所定数の登録モデルを特定する。そして、例えば登録
モデルに対応する属性値(例えば顧客名、顧客番号等)
が出力される。
【0006】
【発明が解決しようとする課題】図1に示したように従
来技術では、(3)式又は(7)式の計算が一つの登録
モデルに対してフレーム数回照合部108で必要とな
り、さらに登録モデルの数が多い場合、処理量が膨大に
なる。例えば(7)式の計算が0.1秒で終了したとし
ても、登録モデルが10万個あれば、0.1秒×100
000個=10000秒=2.7時間かかり、とても実
用に耐えない。
【0007】よって本発明の目的は、より高速なデータ
照合処理技術を提供することである。より詳しくは、よ
り高速な話者認識処理技術を提供することである。
【0008】
【課題を解決するための手段】本発明の第1の態様に係
るデータ照合システムは、照合対象に関する時系列分析
データ(例えば実施の形態におけるLPCケプストラム
係数の系列)から当該照合対象の照合用モデル・データ
(例えば実施の形態における平均ベクトルμin及び共分
散行列Σin)を作成するモデル作成手段(例えば実施の
形態におけるモデル作成部5)と、照合の元となる複数
の登録照合用モデル・データ(例えば実施の形態におけ
る平均ベクトルμr及び共分散行列Σr)を格納するモデ
ル・データ格納装置(例えば実施の形態における登録モ
デル格納部11)と、照合対象の照合用モデル・データ
と登録照合用モデル・データとを用いて照合処理を実施
するモデル間照合処理手段(例えば実施の形態における
モデル間照合部9)と、モデル間照合処理手段による照
合対象の照合用モデル・データと登録照合用モデル・デ
ータとの照合結果を用いて、所定の条件(例えば実施の
形態のように尤度λが最も大きい又は例えば尤度λの値
上位所定数)に合致する登録照合用モデル・データに対
応する登録モデルを特定するモデル特定手段(例えば実
施の形態における照合結果判定部13)とを有する。
【0009】このようにすれば、データ登録(より詳し
くは話者登録)時のみならず照合処理時でもモデル作成
処理が必要となるが、(3)式又は(7)式のようなフ
レーム数回の計算は不要となり、結果としてデータ照合
(より詳しくは話者照合)処理が高速化される。
【0010】なお、照合対象が話者の音声である場合に
は、照合対象者の音声データを分析して、時系列分析デ
ータである時系列の音声分析データを生成する手段をさ
らに有するような構成であってもよい。
【0011】また、本発明の第1の態様において、モデ
ル・データ格納装置に格納された各登録照合用モデル・
データを、複数のクラスタのいずれかに分類し、いずれ
のクラスタに含まれるか判断するために用いられる各ク
ラスタの代表登録照合用モデル・データを決定するクラ
スタ構成手段をさらに有し、上で述べたモデル間照合処
理手段を、照合対象の照合用モデル・データと各クラス
タの代表登録照合用モデル・データとを用いて照合処理
を実施することにより、当該照合対象の照合用モデル・
データがいずれのクラスタに含まれるのか判断し、当該
照合対象の照合用モデル・データが含まれると判断され
たクラスタ内の各登録照合用モデル・データと照合対象
の照合用モデル・データとを用いて照合処理を実施する
ような構成とすることも可能である。代表登録照合用モ
デルによりクラスタが絞り込まれるので、照合処理の総
実施回数を減少させることができ、結果として照合処理
が高速化される。
【0012】さらに、本発明の第1の態様において、モ
デル・データ格納装置に格納された複数の登録照合用モ
デル・データを多段クラスタ化し、当該多段クラスタの
各段においていずれのクラスタに含まれるか判断するた
めに用いられる代表登録照合用モデル・データが当該各
段のノードに対応して規定されているクラスタ探索ツリ
ーを構成する多段クラスタ構成手段(例えば実施の形態
における多段クラスタ構成部17)をさらに有し、上で
述べたモデル間照合処理手段は、照合対象の照合用モデ
ル・データと多段クラスタ探索ツリーの各段のノードに
規定されている代表登録照合用モデル・データとを用い
て照合処理を実施することによりクラスタ探索ツリーの
探索を行い、照合対象の照合用モデル・データが含まれ
る最下層のクラスタが特定された場合には、当該最下層
のクラスタに含まれる各登録照合用モデル・データと照
合対象の照合用モデル・データとを用いて照合処理を実
施するような構成とすることも可能である。このように
多段クラスタ化することにより、より効率的にクラスタ
を絞り込むことができ、結果として照合処理がより高速
化される。
【0013】さらに、本発明の第1の態様において、モ
デル特定手段により特定された登録モデルに対応する登
録照合用モデル・データをモデル・データ格納装置から
取り出す特定モデル・データ取得手段(例えば実施の形
態におけるモデル取得部19)と、特定モデル・データ
取得手段により取り出された登録照合用モデル・データ
と、時系列分析データとを用いて第2の照合処理を実施
する第2照合処理手段(例えば実施の形態における照合
部21)とをさらに有するような構成であってもよい。
このようにモデル間照合処理を実施した後に、時系列分
析データを用いて第2の照合処理を実施することによ
り、データ照合(より詳しくは話者認識)の精度を上げ
ることができるようになる。
【0014】本発明の第2の態様におけるデータ照合方
法は 照合対象に関する時系列分析データから当該照合
対象の照合用モデル・データを作成するステップと、照
合対象の照合用モデル・データと、モデル・データ格納
装置に格納された照合の元となる複数の登録照合用モデ
ル・データとを用いて照合処理を実施するモデル間照合
処理ステップと、モデル間照合処理ステップにおける照
合対象の照合用モデル・データと登録照合用モデル・デ
ータとの照合結果を用いて、所定の条件に合致する登録
照合用モデル・データに対応する登録モデルを特定する
ステップとを含む。
【0015】本発明の第1の態様に係る変形は、本発明
の第2の態様に適用可能である。
【0016】なお、本発明の第2の態様に係るデータ照
合方法をプログラムとコンピュータの組み合せにて実現
することができ、この場合、当該プログラムは、例えば
フロッピー(登録商標)・ディスク、CD−ROM、光
磁気ディスク、半導体メモリ、ハードディスク等の記憶
媒体又は記憶装置に格納される。また、処理途中のデー
タについては、コンピュータのメモリに一時保管され
る。
【0017】
【発明の実施の形態】[実施の形態1]本発明の第1の
実施の形態のシステム概要図を図3に示す。なお、以下
ではデータ照合を話者照合の例を用いて説明する。音声
入力部1の出力は音声分析部3に入力される。音声分析
部3の出力は、モデル作成部5に入力される。モデル作
成部5の出力は切替部7に入力される。切替部7の出力
は、話者照合処理時にはモデル間照合部9に入力され、
話者登録処理時には登録モデル格納部11に格納され
る。モデル間照合部9は、登録モデル格納部11を参照
できるようになっており、その出力は照合結果判定部1
3に入力される。照合結果判定部13から照合結果が出
力される。処理目的が話者照合であるから、照合結果は
入力音声の話者が登録話者のうち誰であるかを示す情報
である。
【0018】このシステムの動作を図4を用いて説明す
る。話者の音声は、マイクロフォン等である音声入力部
100により入力される(ステップS1)。音声入力部
100では、空気の振動である音声波を電気信号に変換
する。次に、音声分析部102は、音声の電気信号をデ
ィジタル化し、15msから30ms程度の分析窓で、
5msから30ms程度のフレーム毎に音声分析を実施
し、時系列分析データ(例えばLPCケプストラム係数
の系列Cij)を生成する(ステップS3)。ここでiは
フレーム番号であり、i=1〜Nで、Nはフレーム総数
である。jはLPCケプストラム係数の次元番号であ
り、j=1〜Mで、Mは次元数である。
【0019】次に、本実施の形態では、話者認識の場合
も話者登録の場合も、モデル作成部5が入力音声に対す
るモデル・データを生成する(ステップS5)。従来技
術の欄でも説明したモデルの第1の例(平均モデル)の
場合、(1)式で計算される平均ベクトルμinがモデル
・データである。すなわち、以下の計算がなされ、結果
が記憶装置に格納される。 μin=(μ1,μ2,...μMT (8)
【数5】
【0020】従来技術の欄でも説明したモデルの第2の
例(多次元正規分布モデル)の場合、モデル・データ
は、(1)式で計算される平均ベクトルμinと(5)式
で計算される共分散行列Σinである。共分散行列Σin
計算する(9)式及び(9)式の計算に必要な(4)式
を再度示しておく。これらの計算結果も記憶装置に格納
される。
【数6】 i=(Ci1,Ci2,...CiMT (4)
【0021】このようにモデル作成部5がモデル・デー
タを生成した後、音声入力前又は音声入力後に設定され
たモードに従って、話者照合か話者登録かを切替部10
4が判断する(ステップS7)。もし、話者照合でなく
話者登録時であると判断された場合には、モデル作成部
5により生成されたモデル・データを、切替部7は登録
モデル格納部11に登録する(ステップS13)。な
お、この際にはモデル・データに対応して話者の識別情
報等も登録される。
【0022】登録されたモデル・データを、第1の例の
場合平均ベクトルμrと表し、第2の例の場合平均ベク
トルμr及び共分散行列Σrと表すものとする。
【0023】一方、設定モードが話者照合となっている
と判断された場合には、登録モデル格納部11に格納さ
れる各登録モデル・データと、入力音声に対するモデル
・データとの照合処理をモデル間照合部9が実行する
(ステップS9)。
【0024】第1の例(平均モデル)の場合の照合処理
は、以下のような計算を行うことにより実施される。 D=|μin−μr2 (10) この計算を全ての登録モデル・データ(μr)に対して
実施し、距離Dを記憶装置に格納する。
【0025】第2の例(多次元正規分布モデル)の場
合、以下のような計算を行う。
【数7】 この計算を全ての登録モデル・データ(μr及びΣr)に
対して実施し、尤度λ prodを記憶装置に格納する。
【0026】このようにモデル間照合部9により記憶装
置に格納された照合結果を用いて、照合結果判定部13
は、可能性が高い1又は複数の登録モデルを特定し、当
該登録モデルの属性を照合結果として出力する(ステッ
プS11)。より具体的には、第1の例(平均モデル)
の場合には、照合結果の距離Dが短い1又は複数の登録
モデルを特定する。距離が短い登録モデルということ
は、入力音声の話者に該当する可能性が高い登録モデル
ということである。第2の例(多次元正規分布モデル)
の場合には、尤度λprodが高い1又は複数の登録モデル
を特定する。最も可能性の高い1つの登録モデルを特定
するようにしてもよいし、上位5つ等上位所定数の登録
モデルを特定するような構成であってもよい。
【0027】以上をまとめると 最初に、話者の音声入
力データに関する時系列分析データ(例えばLPCケプ
ストラム係数の系列)から当該照合対象の照合用モデル
・データ(例えば平均ベクトル、又は平均ベクトル及び
共分散行列)を生成する。そして、照合対象の照合用モ
デル・データと、登録モデル格納部11に格納された照
合の元となる複数の登録モデル・データとを用いて照合
処理を実施する。最後に、照合結果を用いて、所定の条
件(例えば最も可能性の高いもの又は可能性の高い上位
所定数など)に合致する登録モデル・データに対応する
登録モデルを特定する。
【0028】以上述べたようにモデル作成部5の動作段
階を変更し、モデル間照合部9を導入することにより、
計算量が減少し、結果として処理速度の高速化が実現さ
れる。すなわち、照合処理のための(10)式や(1
1)式では、フレーム数には依存しなくなっている。よ
って、例えば入力音声が2000フレームに分けられる
ような場合、モデル・データ作成で必要となる処理量を
考慮しても演算回数は約1000分の1になる。
【0029】[実施の形態2]実施の形態2では、照合
処理を実施する回数をさらに減らすための工夫について
説明する。実施の形態2のシステム概要を図5に示す。
図3と図5とを比較すると、図3におけるモデル間照合
部9の代わりに高速モデル間照合部15が設けられ、図
3には無い多段クラスタ構成部17が設けられる。多段
クラスタ構成部17は、登録モデル格納部11に格納さ
れた登録モデル・データを複数のクラスタに分類し、各
クラスタを代表する代表登録モデル・データを決定す
る。そして、高速モデル間照合部15は、当該代表登録
モデル・データと入力音声に対するモデル・データとの
照合処理を最初に行って、照合結果に基づき当該入力音
声に対するモデル・データが含まれるクラスタを特定す
る。その後、特定されたクラスタに含まれる登録モデル
・データと入力音声に対するモデル・データとの照合処
理を実施する。このようにすれば、クラスタの数にもよ
るが、照合処理の回数は減少する。例えば、登録モデル
の数をLとし、クラスタの数が2とすると、実施の形態
1ではL回行なわれる照合処理が、(L/2+2)回に
減少する。
【0030】図6(a)及び(b)を用いてクラスタが
2つの場合における処理の概要を説明する。図6(a)
に示すように、登録モデルの空間600が存在するもの
とする。例えば、上で述べた第1の例(平均モデル)の
場合には平均ベクトルの空間である。また、第2の例
(多次元正規分布モデル)の場合には、モデル間尤度に
より構成されるノルム空間である。以下では分かり易い
ように平均ベクトルの例で説明する。そして、多段クラ
スタ構成部17は、所定のアルゴリズムにてクラスタA
(610)の代表モデル及びクラスタB(620)の代
表モデルと、クラスタAに含まれる登録モデル及びクラ
スタBに含まれる登録モデルとを決定する。例えば、1
000個の登録モデルが存在する場合には、500個ず
つ各クラスタに含まれる登録モデルが決定される。
【0031】そして、多段クラスタ構成部17は、図6
(b)に示すようにクラスタ探索ツリーを作成する。2
つのクラスタのみが存在する場合には、クラスタ探索ツ
リーは、ノード630と、クラスタAへのリンクと、ク
ラスタBへのリンクとを含む。例えばクラスタAには登
録モデル1乃至500が含まれ、クラスタBには登録モ
デル501乃至1000が含まれる。
【0032】クラスタ探索ツリーを探索する場合には、
高速モデル間照合部15は、ノード630に対応して規
定されるクラスタAの代表モデル・データと入力音声に
対するモデル・データとの照合処理と、クラスタBの代
表モデル・データと入力音声に対するモデル・データと
の照合処理とを行う。クラスタAの代表モデル・データ
との照合処理結果が、クラスタBの代表モデル・データ
との照合処理結果より可能性が高い(距離が短い又は尤
度が高い)場合には、入力音声に対するモデル・データ
はクラスタAに含まれると判断し、クラスタAに含まれ
る登録モデル1乃至500のモデル・データと入力音声
に対するモデル・データとの照合処理を実施する。一
方、クラスタBの代表モデル・データとの照合処理結果
が、クラスタAの代表モデル・データとの照合処理結果
より可能性が高い(距離が短い又は尤度が高い)場合に
は、入力音声に対するモデル・データはクラスタBに含
まれると判断し、クラスタBに含まれる登録モデル50
1乃至1000のモデル・データと入力音声に対するモ
デル・データとの照合処理を実施する。ここまで実行す
れば、実施の形態1と同じで、照合結果判定部13が可
能性の高い1又は複数の登録モデル・データを特定す
る。
【0033】単純に複数のクラスタに登録モデル・デー
タを分類し、各クラスタについて代表モデル・データを
決定するようにしてもよいが、登録モデルの空間を多段
クラスタに分割することも可能である。例えば、図7に
示すように、登録モデルの空間600をクラスタA(6
10)及びクラスタB(620)に分け、それぞれの代
表モデルを決定した後、クラスタAを2つのクラスタ6
11及び612に分け、さらにクラスタBを2つのクラ
スタ621及び622に分け、それぞれについて代表モ
デルを決定する。さらに、クラスタ611を2つのクラ
スタ613及び614に分け、それぞれについて代表モ
デルを決定する。また、クラスタ612を2つのクラス
タ615及び616に分け、それぞれについて代表モデ
ルを決定する。同様に、クラスタ621を2つのクラス
タ623及び624に分け、それぞれについて代表モデ
ルを決定する。また、クラスタ622を2つのクラスタ
625及び626に分け、それぞれについて代表モデル
を決定する。
【0034】このような登録モデルの空間を多段クラス
タ化すると、図8(a)のようなクラスタ探索ツリーが
構成される。ノード630は、入力音声に対するモデル
・データがクラスタA(610)とクラスタB(62
0)のいずれかに含まれるか判断するためのノードであ
り、(610,620)と表す。ノード632は、ノー
ド630でクラスタA(610)に含まれると判断され
た場合に、入力音声に対するモデル・データがクラスタ
611とクラスタ612のいずれかに含まれるか判断す
るためのノードであり、(611,612)と表す。一
方、ノード634は、ノード630でクラスタB(62
0)に含まれると判断された場合に、入力音声に対する
モデル・データがクラスタ621とクラスタ622のい
ずれかに含まれるか判断するためのノードであり、(6
21,622)と表す。
【0035】ノード636は、ノード632でクラスタ
611に含まれると判断された場合に、入力音声に対す
るモデル・データがクラスタ613とクラスタ614の
いずれかに含まれるか判断するためのノードであり、
(613,614)と表す。また、ノード638は、ノ
ード632でクラスタ612に含まれると判断された場
合に、入力音声に対するモデル・データがクラスタ61
5とクラスタ616のいずれかに含まれるか判断するた
めのノードであり、(615,616)と表す。
【0036】ノード640は、ノード634でクラスタ
621に含まれると判断された場合に、入力音声に対す
るモデル・データがクラスタ623とクラスタ624の
いずれかに含まれるか判断するためのノードであり、
(623,624)と表す。また、ノード642は、ノ
ード634でクラスタ622に含まれると判断された場
合に、入力音声に対するモデル・データがクラスタ62
5とクラスタ626のいずれかに含まれるか判断するた
めのノードであり、(625,626)と表す。
【0037】図8(a)のように3段階で最下層のクラ
スタを特定すると8個のクラスタに分けられ、1000
個の登録モデルが均等に分けられるとすると、クラスタ
613には登録モデル1乃至125、クラスタ614に
は登録モデル126乃至250、クラスタ615には登
録モデル251乃至375、クラスタ616には登録モ
デル376乃至500、クラスタ623には登録モデル
501乃至625、クラスタ624には登録モデル62
6乃至登録モデル750、クラスタ625には登録モデ
ル751乃至875、クラスタ626には登録モデル8
76乃至1000が含まれる。
【0038】クラスタ探索ツリーを探索する場合には、
図8(b)に示すように、最初のノード630でクラス
タA(610)とクラスタB(620)のいずれに含ま
れるか判断される。そして、もしクラスタA(610)
に含まれると判断されると、さらにクラスタ611又は
クラスタ612に含まれるかが判断される。そして、ク
ラスタ612に含まれると判断された場合には、クラス
タ615又はクラスタ616のいずれに含まれるかが判
断される。このよう探索が行なわれると、最下層のクラ
スタ615に含まれることが分かるため、最下層のクラ
スタに含まれる各登録モデル・データとの照合処理が実
施される。図8(a)のような探索ツリーの場合、3ノ
ード×2個=6個の代表モデル・データと入力音声に対
するモデル・データとの照合処理を実施し、最下層のク
ラスタ615に含まれる登録モデル・データ125個と
の照合処理が実施される。
【0039】図9を用いて、高速モデル間照合部15が
実施する照合処理のフローを説明する。なお、図9の処
理は、図4の処理フローのステップS9の代わりに実施
するものである。最初に、クラスタ探索ツリーのノード
に規定された2つの代表モデルのモデル・データと、入
力音声に対するモデル・データとの照合処理を実施する
(ステップS21)。そして、2つの照合結果により、
可能性の高い(例えば距離が短い又は尤度が高い)代表
モデルを特定する(ステップS23)。そして、ステッ
プS21で処理したノードがクラスタ探索ツリーで最下
層ノードであるかを判断する(ステップS25)。も
し、最下層ノードでなければ、可能性の高い代表モデル
のリンクに分岐して、次のノードの処理に移行する(ス
テップS27)。一方、最下層ノードであると判断され
た場合には、可能性の高い代表モデルに対応するクラス
タに含まれる登録モデルのモデル・データと入力音声に
対するモデル・データとの照合処理を実施する(ステッ
プS29)。そして、図4のステップS11に戻る。
【0040】次に、図10及び図11を用いて、多段ク
ラスタ構成部17が実施するクラスタリングの処理フロ
ーの一例を説明しておく。ここでは周知のLBGアルゴ
リズムとLBGアルゴリズムを用いた2分割繰り返しア
ルゴリズムを説明しておく。図10はLBGアルゴリズ
ムを表したフローであり、最初に初期化処理を実施する
(ステップS31)。ここでは、n個の登録モデルの平
均ベクトルを{μj;j=0,...n−1}とする。
また、代表モデル(クラスタ)の数をN個とする。ま
た、代表モデルの初期集合をA0 (N)={z0 (0),...
N-1 (0)}、繰り返しカウンタm=0、ε=ひずみ閾
値、ひずみD-1=∞を設定する。
【0041】次に、登録モデル{μj}を代表モデルAm
(N)によってN個のクラスタ{Si;i=1,..N}に
分割する(ステップS33)。すなわち、全てのtにつ
いてd(μj,zi (m))<d(μj,zt (m))であれば、
μj∈Siとする。なお、d(x,y)はxとyの距離で
ある。また、zi (m)はm回繰り返した場合のi番目の代
表モデル(但しt番目の代表モデルを除く)である。
【0042】そして、平均ひずみDmを計算する(ステ
ップS35)。Dmは以下の式で計算される。
【数8】
【0043】そして、(Dm-1−Dm)/Dm<εである
かを判断する(ステップS37)。もし、この条件が成
り立つ場合には、ひずみの小さいクラスタリングが行わ
れたことになり、処理を終了する。一方、この条件が成
り立たない場合には、新たな代表モデルAm+1 (N)={z
0 (m+1),...zN-1 (m+1)}を決定し、繰り返しカウン
タmを1インクリメントする(ステップS39)。そし
てステップS33に戻って、処理を繰り返す。なお、新
たな代表モデルAm+1 (N)は以下の式で計算される。
【数9】 なお、(15)式はk個の登録モデルを含むクラスタS
iに含まれる他の登録モデルμjとの距離dの総和をkで
除した値が最も小さくなるようなクラスタSiに含まれ
る登録モデルμを求めるということである。
【0044】図10のような処理を実施すると、多段で
ない複数のクラスタSiが構成される。(なお、後処理
にて多段にすることも可能である。)一方図11と図1
0を組み合せると多段クラスタが構成できる。図11で
は最初に、初期化を実施する。ここでは、Δを大きさの
小さい適当なベクトルとし、M=1とし、A0,1=C
(μ1,μ2,..μn)を設定する。なお、C(μ1,μ
2,..μn)はセントロイドベクトルであって、以下の
ような式で計算される。
【数10】 これはμ1,μ2,..μnのいずれかの登録モデルμで
あって、他の登録モデルμjとの距離の総和をnで除し
た値が最も小さくないような登録モデルμを求めるとい
うものである。
【0045】初期化後、A0,M={z0,z1,...z
M-1}に対して、各ziを近接した2つのベクトルzi
Δとzi−Δに分け、{z0-Δ,z0+Δ,z1-Δ,z1+
Δ,...zM-1-Δ,zM-1+Δ}をA0,2M={z0
1,...z2M-1}とする(ステップS43)。これ
は、1個の代表モデルを2個に、2個の代表モデルを4
個に、..、n個の代表モデルを2n個にするための処
理である。
【0046】そして、A0,2Mを初期値として、図10の
LBGアルゴリズムを実行する。そうすると各クラスタ
に含まれる登録モデルと、準最適な代表モデルとが決定
される。また、処理後の代表モデルA0,2Mを登録する
(ステップS45)。その後、2M=N(クラスタ数)
となっているかを判断する(ステップS47)。一方、
2M=Nとなっていない場合には、M=2Mとしてステ
ップS43に戻り、さらに代表モデルを2倍に増やして
処理を繰り返す。
【0047】このようにすれば、1回ステップS45を
実行する毎に図8(a)の各ノードに規定されるべき代
表ノードが決定されてゆき、2M=Nとなっていれば、
最下層の各クラスタSiに対応してそのクラスタに含ま
れる登録モデルも確定される。なお、多段クラスタ構成
部17は、あるタイミングで登録モデル格納部11に格
納されている登録モデルについて上のような処理を実施
する。時々追加される新規な登録モデルについては、一
度クラスタ探索ツリーの探索を実施してみて、いずれの
クラスタに属するかを判定することにより、分類を行
う。
【0048】以上本実施の形態をまとめると、登録モデ
ル格納部11に格納された複数の登録モデル・データを
多段クラスタ化し、当該多段クラスタの各段においてい
ずれのクラスタに含まれるか判断するために用いられる
代表モデル・データが当該各段のノードに対応して規定
されているクラスタ探索ツリーを構成する多段クラスタ
構成部17を実施の形態1のシステムに加え、モデル間
照合部9の代わりの高速モデル間照合部15は、照合対
象の照合用モデル・データと多段クラスタ探索ツリーの
各段のノードに規定されている代表モデル・データとを
用いて照合処理を実施することによりクラスタ探索ツリ
ーの探索を行い、照合対象の照合用モデル・データが含
まれる最下層のクラスタが特定された場合には、当該最
下層のクラスタに含まれる各登録モデル・データと照合
対象の照合用モデル・データとを用いて照合処理を実施
する。この後、照合結果を用いて、所定の条件(例えば
最も可能性の高いもの又は可能性の高い上位所定数な
ど)に合致する登録モデル・データに対応する登録モデ
ルを特定する。
【0049】このようにすれば、演算回数を約クラスタ
数分の1に減少させることができるようになり、結果と
して処理速度が向上する。
【0050】[実施の形態3]実施の形態1及び2で
は、演算回数を減らすための工夫を示していたが、モデ
ル間の照合では第1及び第2の例とも平均ベクトルμを
用いて計算するため認識精度は若干落ちる場合がある。
そこで実施の形態3では、処理速度を向上させ且つ認識
精度を向上させる。
【0051】実施の形態3におけるシステム概要を図1
2に示す。図3と図12を比較すると、照合結果判定部
13の出力が、新たに設けられたモデル取得部19に入
力され、モデル取得部19は登録モデル格納部11を参
照するようにもなっている。そして、モデル取得部19
の出力は新たに設けられた照合部21に出力される。ま
た、照合部21には、音声分析部3が生成する時系列分
析データも入力されるようになっている。最終的な照合
結果は、照合部21から出力されるようになっている。
【0052】この図12に示したシステムの処理フロー
を図13に示す。話者の音声は、マイクロフォン等であ
る音声入力部100により入力される(ステップS5
1)。音声入力部100では、空気の振動である音声波
を電気信号に変換する。次に、音声分析部102は、音
声の電気信号をディジタル化し、所定の分析窓で、所定
のフレーム周期毎に音声分析を実施し、時系列分析デー
タ(例えばLPCケプストラム係数の系列Cij)を生成
する(ステップS53)。
【0053】次に、話者認識の場合も話者登録の場合
も、モデル作成部5が入力音声に対するモデル・データ
を生成する(ステップS55)。従来技術の欄でも説明
したモデルの第1の例(平均モデル)の場合、(8)式
で計算される平均ベクトルμinがモデル・データであ
る。モデルの第2の例(多次元正規分布モデル)の場
合、モデル・データは、(8)式で計算される平均ベク
トルμinと(9)式で計算される共分散行列Σinであ
る。
【0054】このようにモデル作成部5がモデル・デー
タを生成した後、音声入力前又は音声入力後に設定され
たモードに従って、話者照合か話者登録かを切替部7が
判断する(ステップS57)。もし、話者照合でなく話
者登録時であると判断された場合には、モデル作成部5
により生成されたモデル・データを、切替部7は登録モ
デル格納部11に登録する(ステップS69)。なお、
この際にはモデル・データに対応して話者の識別情報等
も登録される。
【0055】登録されたモデル・データを、第1の例の
場合平均ベクトルμrと表し、第2の例の場合平均ベク
トルμr及び共分散行列Σrと表すものとする。
【0056】一方、設定モードが話者照合となっている
と判断された場合には、登録モデル格納部11に格納さ
れる各登録モデル・データと、入力音声に対するモデル
・データとの照合処理をモデル間照合部9が実行する
(ステップS59)。第1の例(平均モデル)の場合の
照合処理は(10)式により計算される。この計算を全
ての登録モデル・データ(μr)に対して実施し、距離
Dを記憶装置に格納する。
【0057】第2の例(多次元正規分布モデル)の場
合、(11)(12)及び(13)式の計算を行う。こ
の計算を全ての登録モデル・データ(μr及びΣr)に対
して実施し、尤度λprodを記憶装置に格納する。
【0058】このようにモデル間照合部9により記憶装
置に格納された照合結果を用いて、照合結果判定部13
は、可能性が高い1又は複数の登録モデルを特定し、当
該登録モデルの属性を照合結果として出力する(ステッ
プS61)。より具体的には、第1の例(平均モデル)
の場合には、照合結果の距離Dが短い1又は複数の登録
モデルを特定する。距離が短い登録モデルということ
は、入力音声の話者が該当する可能性が高い登録モデル
ということである。第2の例(多次元正規分布モデル)
の場合には、尤度λprodが高い1又は複数の登録モデル
を特定する。ここまでは図4の処理とほぼ同じである。
【0059】次に、照合結果判定部13の出力はモデル
取得部19に出力される。そして、モデル取得部19
は、特定された登録モデルのモデル・データを再度登録
モデル格納部11から取得する(ステップS63)。こ
のモデル・データは、第1の例の場合平均ベクトルμr
であり、第2の例の場合平均ベクトルμr及び共分散行
列Σrである。この取得された登録モデルのモデル・デ
ータは照合部21に出力される。
【0060】照合部21は、音声分析部3の出力である
時系列分析データと、特定された登録モデルのモデル・
データとを用いて詳細照合処理を実施する(ステップS
65)。この詳細照合処理は、例えば従来技術の欄で説
明した照合処理であって、ここに再度示しておく。第1
の例(平均モデル)の場合には、以下の式となる。
【数11】 i=(Ci1,Ci2,...CiMT (4)
【0061】このように各フレームにおけるケプストラ
ム係数のベクトルyiと登録モデルμrとの距離の総和D
を計算する。そして、ステップS61で特定された各登
録モデルの距離D(詳細照合処理結果)を比較して、最
も短い(最も可能性の大きい)登録モデルを最も可能性
の高い登録モデルとして特定し、当該登録モデルの属性
(例えば顧客識別情報等)を出力する(ステップS6
7)。
【0062】また、第2の例(多次元正規分布モデル)
の場合、(6)及び(7)式にて計算される。ここに再
度示すと以下のとおりである。
【数12】
【0063】そして、尤度λが最も高い登録モデルを特
定し、当該登録モデルに対応する属性値(例えば顧客識
別情報等)を出力する(ステップS67)。
【0064】以上をまとめると 最初に、話者の音声入
力データに関する時系列分析データ(例えばLPCケプ
ストラム係数の系列)から当該照合対象の照合用モデル
・データ(例えば平均ベクトル、又は平均ベクトル及び
共分散行列)を生成する。そして、照合対象の照合用モ
デル・データと、登録モデル格納部11に格納された照
合の元となる複数の登録モデル・データとを用いて照合
処理を実施する。この照合結果を用いて、所定の条件
(例えば最も可能性の高いもの又は可能性の高い上位所
定数など)に合致する登録モデル・データに対応する登
録モデルを特定する。そして、第1の照合処理により特
定された登録モデルに対応する登録モデル・データを登
録データ格納部11から取り出すデータ取得部19と、
データ取得部19により取り出された登録モデル・デー
タと、入力音声に対する時系列分析データ(例えばLP
Cケプストラム係数の系列)とを用いて第2の照合処理
を実施する。
【0065】これにより、モデル間照合部9にて第2の
照合処理を実施する照合部21で詳細照合処理を実施す
る対象を絞り込むため、たとえ詳細照合処理にて演算回
数が増加しても全体としては高速化される。一方、詳細
照合処理を実施するので認識精度は従来と変わらない。
【0066】[実施の形態4]本実施の形態は、実施の
形態2及び実施の形態3の組み合せである。すなわち、
音声入力部1の出力は音声分析部3に入力され、音声分
析部3の出力はモデル作成部5及び照合部21に入力さ
れる。モデル作成部5の出力は切替部7に入力され、切
替部7は話者照合処理時には高速モデル間照合部15に
モデル作成部5の出力を切り替え、話者登録時には登録
モデル格納部11にモデル作成部5の出力を格納するよ
うな構成となっている。高速モデル間照合部15は、登
録モデル格納部11に格納された登録モデル・データを
参照し、処理結果を照合結果判定部13に出力する。照
合結果判定部13の出力はモデル取得部19に入力さ
れ、モデル取得部19は登録モデル格納部11を参照で
きるようになっている。モデル取得部19の出力は、照
合部21に入力され、照合部21は音声分析部3及びモ
デル取得部19の出力を用いて処理を行い、最終的な照
合結果を出力する。なお、多段クラスタ構成部17は、
登録モデル格納部11を参照して、処理を実施するよう
な構成となっている。
【0067】図14に示したシステムの処理フローは図
13に示したものとほぼ同じである。但し、ステップS
59の処理は、実施の形態2と同じように図9の処理フ
ローに置き換えられる。また、多段クラスタ構成部17
の処理は、例えば実施の形態2で説明した図10及び図
11の処理を実施する。
【0068】このような構成により実施の形態2におけ
る処理速度の向上と、実施の形態3における認識精度の
向上の両方を達成することができるようになる。
【0069】本発明の4つの実施の形態を説明したが、
本発明はこれらの実施の形態に限定されるものではな
い。例えば、時系列分析データの例として、LPCケプ
ストラム係数の系列を例にして説明したが、照合対象に
関する他の時系列分析データであってもよい。さらに、
モデルについては平均モデルと、多次元正規分布モデル
とを用いて説明したが、時系列分析データを用いて生成
される他のモデルを採用することも可能である。また、
照合結果が上位所定数の登録モデルとなる例を示した
が、具体的な閾値を設定してそれを超える距離又は尤度
を有する登録モデルを特定するような構成であってもよ
い。なお、音声についての処理例を示したが、例えば動
画像などの他のデータに適用することも可能である。
【0070】各実施の形態のシステムは、1台のコンピ
ュータにて実現することも可能であるし、複数台のコン
ピュータにて実現することも可能である。さらに、音声
入力は、インターネット等のネットワークや、公衆回線
網を介しての入力であってもよい。話者識別の結果は様
々な用途に用いることができる。
【0071】上で述べたような処理は、コンピュータ・
ハードウエアとコンピュータ・プログラムの組み合せで
実現することも可能であるし、一部又は全部を専用の電
子回路で実現することも可能である。コンピュータ・プ
ログラムは、例えばフロッピー・ディスク、CD−RO
M、光磁気ディスク、半導体メモリ、ハードディスク等
の記憶媒体又は記憶装置に格納される。また、当該コン
ピュータ・プログラムはネットワークを介して送信され
ることもある。なお、処理途中のデータについては、コ
ンピュータのメモリに一時保管される。
【0072】
【発明の効果】以上述べたように本発明によって、より
高速なデータ照合処理技術、より詳しくは高速な話者認
識処理技術を提供することができた。
【図面の簡単な説明】
【図1】従来技術に係るシステム概要図である。
【図2】音声分析部の処理の概要を示す図である。
【図3】実施の形態1に係るシステム概要図である。
【図4】実施の形態1における処理フローを示す図であ
る。
【図5】実施の形態2における処理フローを示す図であ
る。
【図6】(a)は登録モデル空間の概念図である。
(b)はクラスタリングにより生成されるクラスタ探索
ツリーの例を説明をするための図である。
【図7】多段クラスタを説明するための図である。
【図8】(a)は多段クラスタリングにより生成される
クラスタ探索ツリーの例を示す図である。(b)はツリ
ーの探索を説明するための図である。
【図9】高速モデル間照合部の処理フローを示す図であ
る。
【図10】LPGアルゴリズムを示す図である。
【図11】二分割繰り返しアルゴリズムを示す図であ
る。
【図12】実施の形態3におけるシステム概要図であ
る。
【図13】実施の形態3における処理フローを示す図で
ある。
【図14】実施の形態4におけるシステム概要図であ
る。
【符号の説明】
1 音声入力部 3 音声分析部 5 モデル作成
部 7 切替部 9 モデル間照合部 11 登録モデル格納部 1
3 照合結果判定部 15 高速モデル間照合部 17 多段クラスタ構成
部 19 モデル取得部 21 照合部

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】データ照合システムであって、 照合対象に関する時系列分析データから当該照合対象の
    照合用モデル・データを作成するモデル作成手段と、 照合の元となる複数の登録照合用モデル・データを格納
    するモデル・データ格納装置と、 前記照合対象の照合用モデル・データと前記登録照合用
    モデル・データとを用いて照合処理を実施するモデル間
    照合処理手段と、 前記モデル間照合処理手段による前記照合対象の照合用
    モデル・データと前記登録照合用モデル・データとの照
    合結果を用いて、所定の条件に合致する登録照合用モデ
    ル・データに対応する登録モデルを特定するモデル特定
    手段と、 を有するデータ照合システム。
  2. 【請求項2】照合対象者の音声データを分析して、前記
    時系列分析データである時系列の音声分析データを生成
    する手段をさらに有する請求項1記載のデータ照合シス
    テム。
  3. 【請求項3】前記モデル・データ格納装置に格納された
    各前記登録照合用モデル・データを、複数のクラスタの
    いずれかに分類し、いずれのクラスタに含まれるか判断
    するために用いられる各クラスタの代表登録照合用モデ
    ル・データを決定するクラスタ構成手段、 をさらに有し、 前記モデル間照合処理手段は、前記照合対象の照合用モ
    デル・データと前記各クラスタの代表登録照合用モデル
    ・データとを用いて照合処理を実施することにより、当
    該照合対象の照合用モデル・データがいずれのクラスタ
    に含まれるのか判断し、当該照合対象の照合用モデル・
    データが含まれると判断されたクラスタ内の各登録照合
    用モデル・データと前記照合対象の照合用モデル・デー
    タとを用いて照合処理を実施することを特徴とする請求
    項1又は2記載のデータ照合システム。
  4. 【請求項4】前記モデル・データ格納装置に格納された
    前記複数の登録照合用モデル・データを多段クラスタ化
    し、当該多段クラスタの各段においていずれのクラスタ
    に含まれるか判断するために用いられる代表登録照合用
    モデル・データが当該各段のノードに対応して規定され
    ているクラスタ探索ツリーを構成する多段クラスタ構成
    手段、 をさらに有し、 前記モデル間照合処理手段は、前記照合対象の照合用モ
    デル・データと前記多段クラスタ探索ツリーの各段のノ
    ードに規定されている前記代表登録照合用モデル・デー
    タとを用いて照合処理を実施することにより前記クラス
    タ探索ツリーの探索を行い、前記照合対象の照合用モデ
    ル・データが含まれる最下層のクラスタが特定された場
    合には、当該最下層のクラスタに含まれる各登録照合用
    モデル・データと前記照合対象の照合用モデル・データ
    とを用いて照合処理を実施することを特徴とする請求項
    1又は2記載のデータ照合システム。
  5. 【請求項5】前記モデル特定手段により特定された登録
    モデルに対応する登録照合用モデル・データを前記モデ
    ル・データ格納装置から取り出す特定モデル・データ取
    得手段と、 前記特定モデル・データ取得手段により取り出された前
    記登録照合用モデル・データと、前記時系列分析データ
    とを用いて第2の照合処理を実施する第2照合処理手段
    と、 をさらに有する請求項1乃至4のいずれか記載のデータ
    照合システム。
  6. 【請求項6】データ照合方法であって、 照合対象に関する時系列分析データから当該照合対象の
    照合用モデル・データを作成するステップと、 前記照合対象の照合用モデル・データと、モデル・デー
    タ格納装置に格納された照合の元となる複数の登録照合
    用モデル・データとを用いて照合処理を実施するモデル
    間照合処理ステップと、 前記モデル間照合処理ステップにおける前記照合対象の
    照合用モデル・データと前記登録照合用モデル・データ
    との照合結果を用いて、所定の条件に合致する登録照合
    用モデル・データに対応する登録モデルを特定するステ
    ップと、 を含むデータ照合方法。
  7. 【請求項7】データ照合プログラムであって、 コンピュータに、 照合対象に関する時系列分析データから当該照合対象の
    照合用モデル・データを作成するステップと、 前記照合対象の照合用モデル・データと、モデル・デー
    タ格納装置に格納された照合の元となる複数の登録照合
    用モデル・データとを用いて照合処理を実施するモデル
    間照合処理ステップと、 前記モデル間照合処理ステップにおける前記照合対象の
    照合用モデル・データと前記登録照合用モデル・データ
    との照合結果を用いて、所定の条件に合致する登録照合
    用モデル・データに対応する登録モデルを特定するモデ
    ル特定ステップと、 を実行させるためのデータ照合プログラム。
  8. 【請求項8】照合対象者の音声データを分析して、前記
    時系列分析データである時系列の音声分析データを生成
    するステップをコンピュータにさらに実行させるための
    請求項7記載のデータ照合プログラム。
  9. 【請求項9】前記モデル・データ格納装置に格納された
    各前記登録照合用モデル・データを、複数のクラスタの
    いずれかに分類し、いずれのクラスタに含まれるか判断
    するために用いられる各クラスタの代表登録照合用モデ
    ル・データを決定するステップ、 をコンピュータにさらに実行させ、 前記モデル間照合処理ステップにおいて、前記照合対象
    の照合用モデル・データと前記各クラスタの代表登録照
    合用モデル・データとを用いて照合処理を実施すること
    により、当該照合対象の照合用モデル・データがいずれ
    のクラスタに含まれるのか判断し、当該照合対象の照合
    用モデル・データが含まれると判断されたクラスタ内の
    各登録照合用モデル・データと前記照合対象の照合用モ
    デル・データとを用いて照合処理を実施することを特徴
    とする請求項7又は8記載のデータ照合プログラム。
  10. 【請求項10】前記モデル・データ格納装置に格納され
    た前記複数の登録照合用モデル・データを多段クラスタ
    化し、当該多段クラスタの各段においていずれのクラス
    タに含まれるか判断するために用いられる代表登録照合
    用モデル・データが当該各段のノードに対応して規定さ
    れているクラスタ探索ツリーを構成するステップ、 をコンピュータにさらに実行させ、 前記モデル間照合処理ステップにおいて、前記照合対象
    の照合用モデル・データと前記多段クラスタ探索ツリー
    の各段のノードに規定されている前記代表登録照合用モ
    デル・データとを用いて照合処理を実施することにより
    前記クラスタ探索ツリーの探索を行い、前記照合対象の
    照合用モデル・データが含まれる最下層のクラスタが特
    定された場合には、当該最下層のクラスタに含まれる各
    登録照合用モデル・データと前記照合対象の照合用モデ
    ル・データとを用いて照合処理を実施することを特徴と
    する請求項7又は8記載のデータ照合プログラム。
  11. 【請求項11】前記モデル特定ステップにおいて特定さ
    れた登録モデルに対応する登録照合用モデル・データを
    前記モデル・データ格納装置から取り出す特定モデル・
    データ取得ステップと、 前記特定モデル・データ取得ステップにおいて取り出さ
    れた前記登録照合用モデル・データと、前記時系列分析
    データとを用いて第2の照合処理を実施するステップ
    と、 をコンピュータにさらに実行させるための請求項7乃至
    10のいずれか記載のデータ照合プログラム。
  12. 【請求項12】データ照合プログラムを格納した記録媒
    体であって、 前記データ照合プログラムは、コンピュータに、 照合対象に関する時系列分析データから当該照合対象の
    照合用モデル・データを作成するステップと、 前記照合対象の照合用モデル・データと、モデル・デー
    タ格納装置に格納された照合の元となる複数の登録照合
    用モデル・データとを用いて照合処理を実施するモデル
    間照合処理ステップと、 前記モデル間照合処理ステップにおける前記照合対象の
    照合用モデル・データと前記登録照合用モデル・データ
    との照合結果を用いて、所定の条件に合致する登録照合
    用モデル・データに対応する登録モデルを特定するモデ
    ル特定ステップと、 を実行させるためのプログラムである、記録媒体。
JP2001019575A 2001-01-29 2001-01-29 データ照合システム及び方法 Expired - Fee Related JP4738606B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001019575A JP4738606B2 (ja) 2001-01-29 2001-01-29 データ照合システム及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001019575A JP4738606B2 (ja) 2001-01-29 2001-01-29 データ照合システム及び方法

Publications (2)

Publication Number Publication Date
JP2002221991A true JP2002221991A (ja) 2002-08-09
JP4738606B2 JP4738606B2 (ja) 2011-08-03

Family

ID=18885429

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001019575A Expired - Fee Related JP4738606B2 (ja) 2001-01-29 2001-01-29 データ照合システム及び方法

Country Status (1)

Country Link
JP (1) JP4738606B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4438014B1 (ja) * 2008-11-06 2010-03-24 株式会社ネイクス 有害顧客検知システム、その方法及び有害顧客検知プログラム
JP2014502374A (ja) * 2010-12-10 2014-01-30 パナソニック株式会社 話者認識のためのモデリング・デバイスおよび方法、ならびに話者認識システム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6346496A (ja) * 1986-04-04 1988-02-27 株式会社リコー 音声認識装置
JPS63213899A (ja) * 1987-03-02 1988-09-06 株式会社リコー 話者照合方式
JPH07287593A (ja) * 1994-04-12 1995-10-31 Xerox Corp スピーカーデータのクラスタリング方法
JPH1097274A (ja) * 1996-09-24 1998-04-14 Kokusai Denshin Denwa Co Ltd <Kdd> 話者認識方法及び装置
JPH10260988A (ja) * 1997-03-21 1998-09-29 Nippon Hoso Kyokai <Nhk> クラスタリング方法
JP2000298498A (ja) * 1999-03-11 2000-10-24 Fuji Xerox Co Ltd オーディオ・ビジュアル記録物をセグメント化する方法およびコンピュータ記憶媒体、並びにコンピュータシステム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6346496A (ja) * 1986-04-04 1988-02-27 株式会社リコー 音声認識装置
JPS63213899A (ja) * 1987-03-02 1988-09-06 株式会社リコー 話者照合方式
JPH07287593A (ja) * 1994-04-12 1995-10-31 Xerox Corp スピーカーデータのクラスタリング方法
JPH1097274A (ja) * 1996-09-24 1998-04-14 Kokusai Denshin Denwa Co Ltd <Kdd> 話者認識方法及び装置
JPH10260988A (ja) * 1997-03-21 1998-09-29 Nippon Hoso Kyokai <Nhk> クラスタリング方法
JP2000298498A (ja) * 1999-03-11 2000-10-24 Fuji Xerox Co Ltd オーディオ・ビジュアル記録物をセグメント化する方法およびコンピュータ記憶媒体、並びにコンピュータシステム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4438014B1 (ja) * 2008-11-06 2010-03-24 株式会社ネイクス 有害顧客検知システム、その方法及び有害顧客検知プログラム
JP2010113167A (ja) * 2008-11-06 2010-05-20 Neikusu:Kk 有害顧客検知システム、その方法及び有害顧客検知プログラム
JP2014502374A (ja) * 2010-12-10 2014-01-30 パナソニック株式会社 話者認識のためのモデリング・デバイスおよび方法、ならびに話者認識システム

Also Published As

Publication number Publication date
JP4738606B2 (ja) 2011-08-03

Similar Documents

Publication Publication Date Title
JP5853029B2 (ja) 話者照合のためのパスフレーズ・モデリングのデバイスおよび方法、ならびに話者照合システム
JP5423670B2 (ja) 音響モデル学習装置および音声認識装置
JP3627299B2 (ja) 音声認識方法及び装置
KR102294638B1 (ko) 잡음 환경에 강인한 화자 인식을 위한 심화 신경망 기반의 특징 강화 및 변형된 손실 함수를 이용한 결합 학습 방법 및 장치
KR20040037180A (ko) 학습 모델 부분들을 사용하는 안면 인식 시스템 및 방법
JP2002014692A (ja) 音響モデル作成装置及びその方法
JP2005062866A (ja) コンパクトな音響モデルを作成するためのバブル分割方法
JP2018194828A (ja) マルチビューベクトルの処理方法及び装置
CN115428469A (zh) 用于无声视频的ai辅助音效生成
CN112861984A (zh) 一种基于特征融合与集成学习的语音情感分类方法
Pei et al. Multimodal dimensional affect recognition using deep bidirectional long short-term memory recurrent neural networks
Awasthi et al. Teaching keyword spotters to spot new keywords with limited examples
US5864807A (en) Method and apparatus for training a speaker recognition system
CN113611293A (zh) 一种蒙古语数据集扩充方法
Jourlin Word-dependent acoustic-labial weights in HMM-based speech recognition
Thiruvengatanadhan Music genre classification using gmm
JP4738606B2 (ja) データ照合システム及び方法
JP7006402B2 (ja) クラスタリングプログラム、クラスタリング方法およびクラスタリング装置
US20130060788A1 (en) Methods for recognition of multidimensiional patterns cross-reference to related applications
CN113870896A (zh) 基于时频图和卷积神经网络的运动声音判假方法、装置
CN114023336A (zh) 模型训练方法、装置、设备以及存储介质
CN112863549A (zh) 一种基于元-多任务学习的语音情感识别方法及装置
WO2010076386A2 (en) Method for a pattern discovery and recognition
Batlle et al. Scalability issues in an HMM-based audio fingerprinting
CN111312215A (zh) 一种基于卷积神经网络和双耳表征的自然语音情感识别方法

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7426

Effective date: 20070828

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080128

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100716

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100803

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100924

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110426

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110427

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4738606

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140513

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees