JP5321596B2 - 統計モデル学習装置、統計モデル学習方法、およびプログラム - Google Patents

統計モデル学習装置、統計モデル学習方法、およびプログラム Download PDF

Info

Publication number
JP5321596B2
JP5321596B2 JP2010534655A JP2010534655A JP5321596B2 JP 5321596 B2 JP5321596 B2 JP 5321596B2 JP 2010534655 A JP2010534655 A JP 2010534655A JP 2010534655 A JP2010534655 A JP 2010534655A JP 5321596 B2 JP5321596 B2 JP 5321596B2
Authority
JP
Japan
Prior art keywords
data
statistical model
learning
model
statistical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010534655A
Other languages
English (en)
Other versions
JPWO2010047019A1 (ja
Inventor
孝文 越仲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2010534655A priority Critical patent/JP5321596B2/ja
Publication of JPWO2010047019A1 publication Critical patent/JPWO2010047019A1/ja
Application granted granted Critical
Publication of JP5321596B2 publication Critical patent/JP5321596B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Image Analysis (AREA)

Description

本発明は統計モデル学習装置、統計モデル学習方法、および統計モデル学習用プログラムに関し、特に、学習データを選択的に使用することで効率的にモデルパラメータを推定することが可能な統計モデル学習装置、統計モデル学習方法、および統計モデル学習用プログラムに関する。
従来この種の統計モデル学習装置は、パタン認識装置が入力パタンをいずれかのカテゴリに分類する際に参照する統計モデルを作成する用途に供されてきた。一般に、良質の統計モデルを作成するには、ラベル付きデータ、すなわち分類すべきカテゴリの正解ラベルが付与されたデータが大量に必要であり、かつラベルを付与するには人手作業などのコストがかかるという問題が知られている。この種の統計モデル学習装置は、特にこのような問題に対処するために、情報量の大きいデータ、すなわちラベル情報が自明でなく、統計モデルの品質向上に有効なデータを自動的に検出し、効率的にラベル付きデータを生成することに用いられてきた。
本発明に関連する統計モデル学習装置の一例が、非特許文献1、非特許文献2に記載されている。図5に示すように、本発明に関連する統計モデル学習装置は、ラベル付きデータ記憶手段501と、統計モデル学習手段502と、統計モデル記憶手段503と、ラベルなしデータ記憶手段504と、データ認識手段505と、信頼度計算手段506と、データ選択手段507とから構成されている。
このような構成を有する本発明に関連する統計モデル学習装置は次のように動作する。
すなわち、統計モデル学習手段502は、ラベル付きデータ記憶手段501に記憶された、当初は限られた量のラベル付きデータを用いて、統計モデルを作成し、統計モデル記憶手段503に記憶する。データ認識手段505は、統計モデル記憶手段503に記憶された統計モデルを参照して、ラベルなしデータ記憶手段504に記憶された個々のデータを認識し、認識結果を算出する。信頼度計算手段506は、データ認識手段505が出力した認識結果を受けて、その結果の確からしさの尺度である信頼度を計算する。データ選択手段507は、信頼度計算手段506が計算した信頼度の値が所定のしきい値よりも低いデータをすべて選択し、ディスプレイやスピーカー等を介して作業者等に表示し、正しいラベルの入力を受け取った上で、当該データを新たなラベル付きデータとして、ラベル付きデータ記憶手段501に記憶する。
以上の動作を必要回数反復することにより、ラベル付きデータ記憶手段501に記憶されたラベル付きデータが増量され、良質の統計モデルが統計モデル記憶手段503に記憶される。
リカルディ、ハッカニツール著「アクティブ・アンド・アンスーパバイズド・ラーニング・フォー・オートマティック・スピーチ・レコグニション」ユーロスピーチ2003予稿集、2003年9月(G.Riccardi & D.Hakkani-Tur, "Active and unsupervisedlearning for automatic speech recognition," Proc.ofEUROSPEECH2003,Sep.2003) 加藤、戸田、猿渡、鹿野著「音響尤度を用いた書き起こしデータ選択による音響モデル構築コストの削減」、社団法人 情報処理学会 研究報告、2005-SLP-59(45)、2005年12月22日、229〜234頁
上述した本発明に関連する技術の問題点は、統計モデルの品質向上に有効なデータをラベルなしデータから高効率に選択する精度が低いということである。
上述した本発明に関連する技術のように、信頼度に基づいてラベルなしデータを選択した場合、現時点で得られている統計モデルと理想的な統計モデルとの間に大きな隔たりがある初期の段階で、必ずしも有効なデータを選択できない。なぜなら、信頼度の値が所定のしきい値より低いデータを選択することは、統計モデルが規定するカテゴリ境界に近いデータを選択するように動作するが、統計モデルの品質が低い初期の段階では、カテゴリ境界も正確でなく、カテゴリ境界付近のデータが必ずしも統計モデルの品質向上に有効とは限らないからである。そのようなデータ選択を行った場合、統計モデルの品質の上昇は緩やかであり、結果として、多くのデータを選択して、多大なラベル付与コストをかけることとなる。
本発明の目的は、統計モデルの品質向上に有効なデータをラベルなしデータから高効率に選択する精度が低いという上述した課題を解決した統計モデル学習装置、統計モデル学習方法、および統計モデル学習用プログラムを提供することにある。
本発明の統計モデル学習装置は、学習対象となるデータが通常有する構造情報を参照して、学習データから複数個のサブセットを抽出するデータ分類手段と、サブセットを学習してそれぞれ統計モデルを作成する統計モデル学習手段と、それぞれの統計モデルを用いて学習データと異なる別のデータを認識して認識結果を取得するデータ認識手段と、それぞれの統計モデルから得られた認識結果の不一致の度合いから別のデータの情報量を計算する情報量計算手段と、別のデータの中から、情報量の高いものを選択し、学習データに追加するデータ選択手段とを備える。
本発明の効果は、統計モデルの品質向上に有効なデータを予備データから効率的に選択し、良質の学習データ、ひいては良質の統計モデルを低コストで作成できる統計モデル学習装置、統計モデル学習方法、および統計モデル学習用プログラムを提供できることである。
本発明の第1の実施の形態の構成を示すブロック図である。 典型的な話者T名分のガウス混合モデルを生成する装置の一例の構成を示すブロック図である。 本発明の第1の実施の形態の動作を示す流れ図である。 本発明の第2の実施の形態の構成を示すブロック図である。 本発明に関連する統計モデル学習装置の一例の構成を示すブロック図である。 本発明の第3の実施の形態の構成を示すブロック図である。
次に、本発明の実施の形態について図面を参照して詳細に説明する。
[第1の実施の形態]
図1を参照すると、本発明の第1の実施の形態は、学習データ記憶手段101と、データ分類手段102と、統計モデル学習手段103と、統計モデル記憶手段104と、予備データ記憶手段105と、データ認識手段106と、情報量計算手段107と、データ選択手段108と、データ構造情報記憶手段109とを含み、データ構造情報記憶手段109に記憶されたデータの構造に関する情報に基づき、一般に極めて高次元の統計モデル空間に、T個の統計モデルを偏りなく生成し、また、個々の予備データが有する情報量を、T個の統計モデルから得られる認識結果の多様性、すなわち不一致の度合いに基づいて計算するよう動作する。このような構成を採用し、実世界のデータの構造を考慮してより可能性の高い領域に配置されたT個の統計モデルを用いて、統計モデルの品質向上に有効なデータを予備データから選択することにより、本発明の目的を達成することができる。以下、構成要素の詳細について説明する。
学習データ記憶手段101は、統計モデルの学習に必要な学習データを記憶する。通常、学習データには、そのデータが属するカテゴリを示すラベルが付与されており、このようなデータをラベル付きデータと呼ぶことにする。ラベル付きデータの具体的内容は任意であり、想定するパタン認識装置により決まる。例えば、パタン認識装置として文字認識装置を想定する場合、データは文字画像であり、その文字画像に対応する文字コードなどがラベルに相当する。パタン認識装置として顔認識装置を想定する場合は、データとラベルはそれぞれ、ある人物の顔画像、およびその人物を特定する何らかのIDとなる。パタン認識装置として音声認識装置を想定する場合は、データは発話ごとなどの単位で分けられた音声信号であり、ラベルはその発話内容を示す単語IDや発音記号列などである。
予備データ記憶手段105は、学習データ記憶手段101に記憶されたデータとは別に収集されたデータを記憶する。これらのデータは、学習データ記憶手段101に記憶されたデータと同様、想定するパタン認識装置に応じて決まる文字画像、顔画像、一般の物体画像、音声信号等であるが、ラベルは必ずしも付与されていなくてもよい。
データ構造情報記憶手段109は、学習データ記憶手段101や予備データ記憶手段105に記憶されたデータが通常有する構造に関する情報を記憶する。例えば、音声認識装置を想定して、データとして音声信号を扱う場合、概略どのような話者が存在し得るか、どのような雑音が重畳し得るか、といった、音声信号が通常有する構造情報が存在する。
音声信号以外のデータにおいても同様のことがいえる。例えば顔画像や一般の物体画像であれば、照明条件や物体の向き(姿勢)など、文字画像であれば、例えば筆者や筆記具のバリエーションなどが、前記構造情報に該当する。
データ分類手段102は、データ構造情報記憶手段109に記憶された構造情報を参照して、学習データ記憶手段101に記憶されたデータを所定数、例えばT個のサブセットS1,…,STに分類する。サブセットは重複なく学習データを分割したものであってもよいし、互いに共通部分を持つように構成してもよい。
データ分類手段102およびデータ構造情報記憶手段109の動作については、後により詳しく説明する。
統計モデル学習手段103は、データ分類手段102から、T個のサブセットS1,…,STを順次受け取り学習を行って、統計モデルを規定するパラメータを推定し、結果として得られる統計モデルを順次統計モデル記憶手段104に記憶する。結果として、T回の学習の後、統計モデル記憶手段104にはT個の統計モデルθ1,…,θTが記憶されている。ただしθiは、統計モデルを一意に指定するパラメータのセットであり、例えば音声認識用の音響モデルによく用いられる隠れマルコフモデルの場合は、状態遷移確率、混合ガウス分布の平均、分散、混合係数等のパラメータの一式がθiに含まれる。
データ認識手段106は、統計モデル記憶手段104に記憶されたT個の統計モデルを各々参照して、予備データ記憶手段105に記憶されたデータを認識し、T個の認識結果をデータごとに取得する。
情報量計算手段107は、データ認識手段106がデータごとに出力したT個の認識結果を相互に比較して、個々のデータの情報量を計算する。ここで情報量とは、データごとに算出される量で、T個の認識結果の多様性、すなわち不一致の度合いとする。すなわち、異なるT個のモデルが、すべて同じ認識結果を生成した場合、そのデータの情報量は低い。逆に、T個のモデルから生成された認識結果がまったく一致せず、T通りの異なる認識結果が出たならば、そのデータの情報量は高いと考える。
このような情報量を定量的に表す方法は種々考えられるが、以下にいくつかの例を示す。一つは、もっとも多く得られた認識結果の個数をr1、2番目に多く得られた認識結果の個数をr2として、その差分r2-r1を情報量と定義する方法である。例えばT個の認識結果がすべて同じ場合は、r2-r1=-Tで情報量は最小となり、T個の認識結果がすべて異なる場合などは、r2-r1=0で情報量は最大となる。別の例としては、認識結果iの個数をfiとして、そのばらつきの度合いを数1のようなエントロピーで表現する方法も考えられる。
Figure 0005321596
また別の例としては、データxに対するT個の認識結果をy1,y2,…,yTとして、これらの一致不一致を数2のように網羅的に計数してもよい。ただしδijはクロネッカのデルタ、すなわち、i=jなら1、そうでなければ0を取る2値変数である。
Figure 0005321596
認識結果が確率またはそれに準ずるスコアの形式で出力される場合には、さらに数2を拡張した別の例を考えることができる。すなわち、ある統計モデルθiによるデータxの認識結果y∈{1,2,…,C}(ただしCはカテゴリ総数)が確率分布p(y|x,θi)で出力される場合、数3のように、確率分布の差異をもとにして情報量を定義すればよい。
Figure 0005321596
ここに、Dは確率分布間の相違度を測る何らかの尺度、例えばKLダイバージェンスなどである。
なお、認識結果yが、何らかの単位が連続する系列データである場合、すなわち、例えば大語彙連続音声認識の結果のように単語の列である場合は、単語単位に分割し、単語ごとに上述の計算を行うなどすればよい。
データ選択手段108は、情報量計算手段107が計算した情報量の値が所定のしきい値よりも低いデータ、あるいは情報量が小さい順に所定個数のデータを選択し、必要に応じてそれらのデータをディスプレイやスピーカー等を介して作業者等に提示し、正しいラベルの入力を受け取った上で、当該データを学習データ記憶手段101に追加し、当該データを予備データ記憶手段105から消去する。
以上の動作を所定の回数反復することにより、学習データ記憶手段101には、統計モデルの品質向上に有効なデータが効率よく蓄積される。そこで、所定回の反復が終わった後、統計モデル学習手段103は、学習データ記憶手段101に記憶された学習データすべてを用いて、1つの統計モデルを作成し、出力する。
次に、データ分類手段102およびデータ構造情報記憶手段109の動作について、より詳しく説明する。
前述したように、データ構造情報記憶手段109は、学習データ記憶手段101や予備データ記憶手段105に記憶されたデータが通常有する構造に関する情報が記憶されている。
例えばデータが音声信号であるとして、話者に関する構造情報をデータ構造情報記憶手段109に記憶する場合を考える。この場合、データ構造情報記憶手段109に記憶される構造情報は、典型的な話者T名分のモデルである。モデルの種類としては、公知のガウス混合モデル(Gaussian
Mixture ModelまたはGMM)などの確率モデルが好適と考えられる。よって以下ではGMMを仮定して説明を行うが、構造情報の表現に適していれば他の任意のモデルでもよく、また確率モデルをさらに特殊化したような単純な形式、例えば単なるデータ点(GMMの平均ベクトルなど)を用いることも可能である。
典型的な話者T名分のGMMの作成は、次のように行えばよい。すなわち、図2に示すように、様々な話者の発話が含まれる音声信号をデータ記憶手段201に収集し、クラスタリング手段202を用いて、K平均法(K-means法)等の公知のクラスタリング技術によりこれらの音声信号をT個のクラスタ(グループ)203-1〜203-Tに分類し、その後、生成手段204を用いて、クラスタ203-1〜203-Tごとに公知の最尤推定法等を適用して、T個のGMM λ1,…,λT 205-1〜205-Tを作成する。
話者の代わりに雑音環境に関する構造情報をデータ構造情報記憶手段109に記憶する場合も同様である。また、話者、雑音環境、その他任意の要因を合わせた構造情報を記憶する場合は、様々な話者、雑音環境の発話が含まれる音声信号を収集し、上述の手順を実施すればよい。音声信号以外のデータ、例えば物体画像に対する照明条件や物体の向き(姿勢)、文字画像に対する筆者や筆記具、フォント等についても、同様の手順が実施可能であることは自明である。
データ分類手段102は、データ構造情報記憶手段109に記憶された構造情報であるところの、典型的な話者、雑音環境等に関するT個のモデルを参照し、学習データ記憶手段101に記憶されたデータからT個のサブセットS1,…,STを取り出す。具体的には、学習データ記憶手段101に記憶された個々のデータxと各GMMの類似度(近さ)p(x|λi)を計算し、各々のデータをT個のモデルのうち少なくとも一つに割り当てる。
具体的な割り当て方、すなわちサブセットS1,…,STの作り方については、いくつか考えられる。一つの例としては、数4のように、各々のデータを、T個のモデルのうちもっとも近いものに割り当てる(arg maxは目的関数が最大となるインデクスを取る演算子)。この場合は、T個のサブセットは、学習データ記憶手段101に記憶されたデータを、互いに重複がないように分割したものとなる。
Figure 0005321596
別の例としては、学習データ記憶手段101に記憶された各々のデータとi番目のモデルとの類似度を計算し、数5のように所定のしきい値αよりも大きいデータをすべてi番目のモデルλiに割り当てることにしてもよい。この場合T個のサブセットは、互いに重複することがあり得る。
Figure 0005321596
これと類似の例として、i番目のモデルλiとの類似度が近い順に、所定のデータ量に達するまで(所定の件数に達するまで、あるいは、もとのデータ量の所定割合に達するまで等)、データをモデルλiに対応付けるという方法も考えられる。
このように、データが有する構造に即してデータのサブセットを構成することには、データのある種の変動要因に対する統計モデルの頑健性を向上させるという意味がある。例えば、データとして音声信号があり、典型的な話者T名分のモデルλ1,…,λTを使ってT個のサブセットS1,…,STを構成し、ここからT個の統計モデルθ1,…,θTを作成した場合、これらの統計モデルは、話者の変動による統計モデルの変動を偏りなくカバーした統計モデル群と考えることができる。よって、統計モデルθ1,…,θTをもとにして算出された情報量は、話者の変動という変動要因に関して、そのデータが高い情報量を有するか否かを表していると考えられる。したがって、このような条件で情報量の高いデータに優先的にラベルを付与して統計モデルの学習に活用することは、話者の変動に対して頑健な統計モデルの獲得に有用と考えられる。
次に、図1および図3のフローチャートを参照して、本実施の形態の全体の動作について詳細に説明する。
まず、データ分類手段102は、データ構造情報記憶手段109に記憶された、データの構造情報λ1,…,λTを読み込み(図3のステップA1)、カウンタiを1にセットし(ステップA2)、学習データ記憶手段101に記憶された学習データを読み込み(ステップA3)、前記構造情報を参照して、前記学習データからデータを選択して、数4や数5のような方法でT個のサブセットS1,…,STを作る(ステップA4)。次に、統計モデル学習手段103は、カウンタjを1にセットし(ステップA5)、j番目のサブセットSjを用いて統計モデルの学習を行い、得られた統計モデルθjを統計モデル記憶手段104に記憶する(ステップA6)。次に、データ認識手段106は、前記j番目の統計モデルθjを参照しながら、予備データ記憶手段105に記憶された個々のデータを認識し、認識結果を取得する(ステップA7)。カウンタjがTよりも小さければ(ステップA8)、カウンタをインクリメントして(ステップA9)、ステップA6に戻り、そうでなければ次のステップに進む。
情報量計算手段107は、前記認識結果を用いて、予備データ記憶手段105に記憶された個々のデータごとに、数1、数2、数3などの計算式に従って情報量を計算する(ステップA10)。次に、データ選択手段108は、前記情報量が所定のしきい値よりも大きいデータを予備データ記憶手段105から選択し、必要に応じてディスプレイやスピーカー等を介して作業者等に提示し、正しいラベルの入力を受け取り(ステップA11)、当該データを学習データ記憶手段101に記録し、必要に応じて予備データ記憶手段105から消去する(ステップA12)。さらに、カウンタiが所定数Nに達していなければ(ステップA13)、カウンタをインクリメントして(ステップA14)、ステップA3に戻り、そうでなければ次のステップに進む。
最後に、統計モデル学習手段103は、学習データ記憶手段101に蓄積された学習データすべてを用いて、1つの統計モデルを作成した後、動作を終了する(ステップA15)。
なお、カウンタiによる終了判定は、所定回数Nの反復で動作を終了するという単純な条件判定であるが、これ以外の条件に置き換えたり、組み合わせたりしてもよい。例えば、学習データ記憶手段101に記憶された学習データが所定の量に達した時点で動作を終了するという条件判定を用いてもよいし、統計モデルθ1,…,θTの更新状況をみて、変化がなくなった時点で動作を終了するという条件判定を用いてもよい。
以上のように、本実施の形態では、データ分類手段102が、データ構造情報記憶手段109に記憶されたデータの構造情報、すなわち、音声信号に対する典型的な話者や雑音のモデル、物体画像に対する典型的な照明条件や物体の姿勢(向き)のモデル、といった情報を参照しながら、学習データ記憶手段101に記憶された学習データからデータを選択してT個のサブセットを作り、また統計モデル学習手段103が、前記T個のサブセットを用いて、前記データの構造情報に即したT個の統計モデルをモデル空間上の特定の領域に偏りなく配置する、というように構成されているため、個々の予備データが有する情報量を、前記データの構造情報の観点で正確に計算し、統計モデルの品質向上に有効なデータを効率的に選択でき、良質な統計モデルを低コストで作成することが可能となる。
ここで、低コストとは、一つには、予備データ記憶手段105にラベルを付与するコストを低く抑えられるという意味がある。さらにもう一つとして、学習データ記憶手段101に記憶されたデータ量を必要最小限に抑え、学習にかかる計算量を抑制できるという意味がある。特に後者は、仮に予備データ記憶手段105に記憶されたデータすべてにラベルが付与されていたとしても得られる効果である。
[第2の実施の形態]
次に、本発明の第2の実施の形態について、図面を参照して詳細に説明する。
図4を参照すると、本発明の第2の実施の形態は、入力装置41と、表示装置42と、データ処理装置43と、統計モデル学習用プログラム44と、記憶装置45とで構成されている。また、記憶装置45は、学習データ記憶手段451と、予備データ記憶手段452と、データ構造情報記憶手段453と、統計モデル記憶手段454とを有する。
統計モデル学習用プログラム44は、データ処理装置43に読み込まれ、データ処理装置43の動作を制御する。データ処理装置43は統計モデル学習用プログラム44の制御により以下の処理、すなわち第1の実施の形態におけるデータ分類手段102、統計モデル学習手段103、データ認識手段106、情報量計算手段107、データ選択手段108による処理と同一の処理を実行する。
まず、学習データ、予備データ、データ構造情報が、入力装置41を通して、記憶装置45内の学習データ記憶手段451、予備データ記憶手段452、データ構造情報記憶手段453にそれぞれ記憶される。なお、データ構造情報は図2で説明した処理をコンピュータに実行させるプログラムにより生成することができる。
次に、データ構造情報記憶手段453に記憶されたデータ構造情報を参照して、学習データ記憶手段451に記憶された学習データを分類し、所定のT個のサブセットを作成し、各々のサブセットについて統計モデルを学習し、得られた統計モデルを統計モデル記憶手段454に記憶し、上記統計モデルを用いて、予備データ記憶手段452に記憶された予備データを認識して認識結果を得る。
さらに、T個の統計モデルごとに得られた上記認識結果を用いて、個々の予備データの情報量を計算し、情報量の大きいデータを選択し、必要に応じて表示装置42を通して表示する。また、表示されたデータについて入力装置41を通して入力されたラベルを受け取り、当該データとともに学習データ記憶手段451に記憶し、必要に応じて当該データを予備データ記憶手段452から消去する。
以上の処理を所定回反復し、その後、学習データ記憶手段451に記憶されたデータすべてを用いて統計モデルを学習し、得られた統計モデルを統計モデル記憶手段454に記憶する。
[第3の実施の形態]
次に、本発明の第3の実施の形態を、図6を参照して説明する。図6は、本実施の形態における統計モデル学習装置の構成を示す機能ブロック図である。なお、本実施の形態では、上述した統計モデル学習装置の概略を説明する。
図6に示すように、本実施の形態における統計モデル学習装置は、学習対象となるデータが通常有する構造情報611を参照して、学習データ612から複数個のサブセット613を抽出するデータ分類手段601と、サブセット613を学習してそれぞれ統計モデル614を作成する統計モデル学習手段602と、それぞれの統計モデル614を用いて学習データ612と異なる別のデータ615を認識して認識結果616を取得するデータ認識手段603と、それぞれの統計モデル614から得られた認識結果616の不一致の度合いから別のデータ615の情報量を計算する情報量計算手段604と、別のデータ615の中から、情報量の高いものを選択し、学習データ612に追加するデータ選択手段605とを備えている。
そして、上記統計モデル学習装置では、データ分類手段601によるサブセット613の抽出、統計モデル学習手段602による統計モデルの作成、データ認識手段603による認識結果616の取得、情報量計算手段604による情報量の計算、および、データ選択手段605による学習データ612への別のデータ615の追加を1つのサイクルとして、所定の条件が満たされるまで上記サイクルを繰り返す、という構成を採る。
また、上記統計モデル学習装置では、統計モデル学習手段602は、上記所定の条件が満たされた後の学習データ612から1つの統計モデルを作成する、という構成を採る。
また、上記統計モデル学習装置では、学習対象となるデータが通常有する構造情報611は、データの変動要因に関するモデルである、という構成を採る。
また、上記統計モデル学習装置では、上記データの変動要因に関するモデルは、典型的な変動を受けたデータの複数個のセットである、という構成を採る。
また、上記統計モデル学習装置では、上記データの変動要因に関するモデルは、変動を受けたデータの典型的なパターンを表した確率モデルである、という構成を採る。
また、上記統計モデル学習装置では、上記確率モデルはガウス混合モデルである、という構成を採る。
また、上記統計モデル学習装置では、変動要因による様々な影響を受けた多数のデータを複数個のクラスタに分類するクラスタリング手段と、上記クラスタ毎に上記ガウス混合モデルを生成するガウス混合モデル生成手段とを備える、という構成を採る。
また、上記統計モデル学習装置では、上記データは音声信号であり、上記変動要因は話者、雑音環境のうち少なくともいずれか一つである、という構成を採る。
また、上記統計モデル学習装置では、上記データは文字画像であり、上記変動要因は筆者、フォント、筆記具のうち少なくともいずれか一つである、という構成を採る。
また、上記統計モデル学習装置では、上記データは物体画像であり、上記変動要因は照明条件、物体の姿勢のうち少なくともいずれか一つである、という構成を採る。
また、上記統計モデル学習装置では、データ分類手段601は、上記確率モデルと上記ラベルが付与されたデータとの類似度に基づいて、上記ラベルが付与されたデータから複数個のサブセットを抽出する、という構成を採る。
また、上述した統計モデル学習装置が作動することにより実行される、本発明の他の形態である統計モデル学習方法は、学習対象となるデータが通常有する構造情報を参照して、学習データから複数個のサブセットを抽出し、前記サブセットを学習してそれぞれ統計モデルを作成し、前記それぞれの統計モデルを用いて前記学習データと異なる別のデータを認識して認識結果を取得し、前記それぞれの統計モデルから得られた認識結果の不一致の度合いから前記別のデータの情報量を計算し、前記別のデータの中から、前記情報量の高いものを選択し、前記学習データに追加する、という構成を採る。
また、上記統計モデル学習方法では、上記複数個のサブセットの抽出、上記統計モデルの作成、上記別のデータの認識結果の取得、上記別のデータの情報量の計算、上記学習データへの追加を、1つのサイクルとして、所定の条件が満たされるまで上記サイクルを繰り返す、という構成を採る。
また、上記統計モデル学習方法では、上記所定の条件が満たされた後の上記学習データから1つの統計モデルを作成する、という構成を採る。
また、上記統計モデル学習方法では、上記データが通常有する構造情報は、データの変動要因に関するモデルである、という構成を採る。
また、上記統計モデル学習方法では、上記データの変動要因に関するモデルは、典型的な変動を受けたデータの複数個のセットである、という構成を採る。
また、上記統計モデル学習方法では、上記データの変動要因に関するモデルは、変動を受けたデータの典型的なパターンを表した確率モデルである、という構成を採る。
また、上記統計モデル学習方法では、上記確率モデルはガウス混合モデルである、という構成を採る。
また、上記統計モデル学習方法では、変動要因による様々な影響を受けた多数のデータを複数個のクラスタに分類し、上記クラスタ毎に上記ガウス混合モデルを生成する、という構成を採る。
また、上記統計モデル学習方法では、上記データは音声信号であり、上記変動要因は話者、雑音環境のうち少なくともいずれか一つである、という構成を採る。
また、上記統計モデル学習方法では、上記データは文字画像であり、上記変動要因は筆者、フォント、筆記具のうち少なくともいずれか一つである、という構成を採る。
また、上記統計モデル学習方法では、上記データは物体画像であり、上記変動要因は照明条件、物体の姿勢のうち少なくともいずれか一つである、という構成を採る。
また、上記統計モデル学習方法では、上記複数個のサブセットの抽出では、上記確率モデルとラベルが付与されたデータとの類似度に基づいて、上記ラベルが付与されたデータから複数個のサブセットを抽出する、という構成を採る。
また、上述した統計モデル学習装置および方法は、コンピュータに、プログラムが組み込まれることで実現できる。具体的に、本発明の他の形態であるプログラムは、学習対象となるデータが通常有する構造情報を参照して、学習データから複数個のサブセットを抽出するデータ分類処理と、上記サブセットを学習してそれぞれ統計モデルを作成する統計モデル学習処理と、上記それぞれの統計モデルを用いて上記学習データと異なる別のデータを認識して認識結果を取得するデータ認識処理と、上記それぞれの統計モデルから得られた認識結果の不一致の度合いから上記別のデータの情報量を計算する情報量計算処理と、上記別のデータの中から、上記情報量の高いものを選択し、上記学習データに追加するデータ選択処理とを、コンピュータに実行させる、という構成を採る。
また、上記プログラムでは、上記データ分類処理、上記統計モデル学習処理、上記データ認識処理、上記情報量計算処理および上記データ選択処理を1つのサイクルとして、所定の条件が満たされるまで上記サイクルを繰り返す、という構成を採る。
また、上記プログラムでは、上記所定の条件が満たされた後の上記学習データから1つの統計モデルを作成する処理を、上記コンピュータにさらに実行させる、という構成を採る。
また、上記プログラムでは、上記データが通常有する構造情報は、データの変動要因に関するモデルである、という構成を採る。
また、上記プログラムでは、上記データの変動要因に関するモデルは、典型的な変動を受けたデータの複数個のセットである、という構成を採る。
また、上記プログラムでは、上記データの変動要因に関するモデルは、変動を受けたデータの典型的なパターンを表した確率モデルである、という構成を採る。
また、上記プログラムでは、上記確率モデルはガウス混合モデルである、という構成を採る。
また、上記プログラムでは、変動要因による様々な影響を受けた多数のデータを複数個のクラスタに分類し、上記クラスタ毎に上記ガウス混合モデルを生成する処理を、上記コンピュータにさらに行わせる、という構成を採る。
また、上記プログラムでは、上記データは音声信号であり、上記変動要因は話者、雑音環境のうち少なくともいずれか一つである、という構成を採る。
また、上記プログラムでは、上記データは文字画像であり、上記変動要因は筆者、フォント、筆記具のうち少なくともいずれか一つである、という構成を採る。
また、上記プログラムでは、上記データは物体画像であり、上記変動要因は照明条件、物体の姿勢のうち少なくともいずれか一つである、という構成を採る。
また、上記プログラムでは、上記データ分類処理では、上記確率モデルとラベルが付与されたデータとの類似度に基づいて、上記ラベルが付与されたデータから複数個のサブセットを抽出する、という構成を採る。
上述した構成を有する、統計モデル学習方法、又は、プログラム、の発明であっても、上記統計モデル学習装置と同様の作用を有するために、上述した本発明の目的を達成することができる。
以上、上記各実施形態を参照して本発明を説明したが、本発明は、上述した実施形態に限定されるものではない。本発明の構成や詳細には、本発明の範囲内で当業者が理解しうる様々な変更をすることができる。
なお、本発明は、日本国にて2008年10月21日に特許出願された特願2008−270802の特許出願に基づく優先権主張の利益を享受するものであり、当該特許出願に記載された内容は、全て本明細書に含まれるものとする。
本発明によれば、音声認識装置、文字認識装置、生体個人認証装置を含む各種パタン認識装置、パタン認識用プログラムが参照する統計モデルを学習する統計モデル学習装置や、統計モデル学習をコンピュータに実現させるためのプログラムといった用途に広く適用できる。
101…学習データ記憶手段
102…データ分類手段
103…統計モデル学習手段
104…統計モデル記憶手段
105…予備データ記憶手段
106…データ認識手段
107…情報量計算手段
108…データ選択手段
109…データ構造情報記憶手段
201…データ記憶手段
202…クラスタリング手段
203-1〜203-T…クラスタ
204…生成手段
205-1〜205-T…GMM λ1〜λT
501…ラベル付きデータ記憶手段
502…統計モデル学習手段
503…統計モデル記憶手段
504…ラベルなしデータ記憶手段
505…データ認識手段
506…信頼度計算手段
507…データ選択手段
41…入力装置
42…表示装置
43…データ処理装置
44…統計モデル学習用プログラム
45…記憶装置
451…学習データ記憶手段
452…予備データ記憶手段
453…データ構造情報記憶手段
454…統計モデル記憶手段

Claims (37)

  1. 学習対象となるデータが通常有する構造情報を参照して、学習データから複数個のサブセットを抽出するデータ分類手段と、
    前記サブセットを学習してそれぞれ統計モデルを作成する統計モデル学習手段と、
    前記それぞれの統計モデルを用いて前記学習データと異なる別のデータを認識して認識結果を取得するデータ認識手段と、
    前記それぞれの統計モデルから得られた認識結果の不一致の度合いから前記別のデータの情報量を計算する情報量計算手段と、
    前記別のデータの中から、前記情報量の高いものを選択し、前記学習データに追加するデータ選択手段と
    を備えたことを特徴とする統計モデル学習装置。
  2. 前記データ分類手段による前記サブセットの抽出、前記統計モデル学習手段による統計モデルの作成、前記データ認識手段による認識結果の取得、前記情報量計算手段による情報量の計算、および、前記データ選択手段による前記学習データへの別のデータの追加を1つのサイクルとして、所定の条件が満たされるまで前記サイクルを繰り返すことを特徴とする請求項1記載の統計モデル学習装置。
  3. 前記統計モデル学習手段は、前記所定の条件が満たされた後の前記学習データから1つの統計モデルを作成することを特徴とする請求項2記載の統計モデル学習装置。
  4. 前記データが通常有する構造情報は、データの変動要因に関するモデルであることを特徴とする請求項1乃至3の何れか1項に記載の統計モデル学習装置。
  5. 前記データの変動要因に関するモデルは、典型的な変動を受けたデータの複数個のセットであることを特徴とする請求項4記載の統計モデル学習装置。
  6. 前記データの変動要因に関するモデルは、変動を受けたデータの典型的なパターンを表した確率モデルであることを特徴とする請求項4記載の統計モデル学習装置。
  7. 前記確率モデルはガウス混合モデルであることを特徴とする請求項6記載の統計モデル学習装置。
  8. 変動要因による様々な影響を受けた多数のデータを複数個のクラスタに分類するクラスタリング手段と、前記クラスタ毎に前記ガウス混合モデルを生成するガウス混合モデル生成手段とを備えることを特徴とする請求項7記載の統計モデル学習装置。
  9. 前記データは音声信号であり、前記変動要因は話者、雑音環境のうち少なくともいずれか一つであることを特徴とする請求項4乃至8の何れか1項に記載の統計モデル学習装置。
  10. 前記データは文字画像であり、前記変動要因は筆者、フォント、筆記具のうち少なくともいずれか一つであることを特徴とする請求項4乃至8の何れか1項に記載の統計モデル学習装置。
  11. 前記データは物体画像であり、前記変動要因は照明条件、物体の姿勢のうち少なくともいずれか一つであることを特徴とする請求項4乃至8の何れか1項に記載の統計モデル学習装置。
  12. 前記データ分類手段は、前記確率モデルとラベルが付与されたデータとの類似度に基づいて、前記ラベルが付与されたデータから複数個のサブセットを抽出することを特徴とする請求項6乃至8の何れか1項に記載の統計モデル学習装置。
  13. 学習対象となるデータが通常有する構造情報を参照して、学習データから複数個のサブセットを抽出し、
    前記サブセットを学習してそれぞれ統計モデルを作成し、
    前記それぞれの統計モデルを用いて前記学習データと異なる別のデータを認識して認識結果を取得し、
    前記それぞれの統計モデルから得られた認識結果の不一致の度合いから前記別のデータの情報量を計算し、
    前記別のデータの中から、前記情報量の高いものを選択し、前記学習データに追加する、
    ことを特徴とする統計モデル学習方法。
  14. 前記複数個のサブセットの抽出、前記統計モデルの作成、前記別のデータの認識結果の取得、前記別のデータの情報量の計算、前記学習データへの追加を、1つのサイクルとして、所定の条件が満たされるまで前記サイクルを繰り返すことを特徴とする請求項13記載の統計モデル学習方法。
  15. 前記所定の条件が満たされた後の前記学習データから1つの統計モデルを作成することを特徴とする請求項14記載の統計モデル学習方法。
  16. 前記データが通常有する構造情報は、データの変動要因に関するモデルであることを特徴とする請求項13乃至15の何れか1項に記載の統計モデル学習方法。
  17. 前記データの変動要因に関するモデルは、典型的な変動を受けたデータの複数個のセットであることを特徴とする請求項16記載の統計モデル学習方法。
  18. 前記データの変動要因に関するモデルは、変動を受けたデータの典型的なパターンを表した確率モデルであることを特徴とする請求項16記載の統計モデル学習方法。
  19. 前記確率モデルはガウス混合モデルであることを特徴とする請求項18記載の統計モデル学習方法。
  20. 変動要因による様々な影響を受けた多数のデータを複数個のクラスタに分類し、前記クラスタ毎に前記ガウス混合モデルを生成することを特徴とする請求項19記載の統計モデル学習方法。
  21. 前記データは音声信号であり、前記変動要因は話者、雑音環境のうち少なくともいずれか一つであることを特徴とする請求項16乃至20の何れか1項に記載の統計モデル学習方法。
  22. 前記データは文字画像であり、前記変動要因は筆者、フォント、筆記具のうち少なくともいずれか一つであることを特徴とする請求項16乃至20の何れか1項に記載の統計モデル学習方法。
  23. 前記データは物体画像であり、前記変動要因は照明条件、物体の姿勢のうち少なくともいずれか一つであることを特徴とする請求項16乃至20の何れか1項に記載の統計モデル学習方法。
  24. 前記複数個のサブセットの抽出では、前記確率モデルとラベルが付与されたデータとの類似度に基づいて、前記ラベルが付与されたデータから複数個のサブセットを抽出することを特徴とする請求項18乃至20の何れか1項に記載の統計モデル学習方法。
  25. 学習対象となるデータが通常有する構造情報を参照して、学習データから複数個のサブセットを抽出するデータ分類処理と、
    前記サブセットを学習してそれぞれ統計モデルを作成する統計モデル学習処理と、
    前記それぞれの統計モデルを用いて前記学習データと異なる別のデータを認識して認識結果を取得するデータ認識処理と、
    前記それぞれの統計モデルから得られた認識結果の不一致の度合いから前記別のデータの情報量を計算する情報量計算処理と、
    前記別のデータの中から、前記情報量の高いものを選択し、前記学習データに追加するデータ選択処理と
    をコンピュータに実行させるためのプログラム。
  26. 前記データ分類処理、前記統計モデル学習処理、前記データ認識処理、前記情報量計算処理および前記データ選択処理を1つのサイクルとして、所定の条件が満たされるまで前記サイクルを繰り返すことを特徴とする請求項25記載のプログラム。
  27. 前記所定の条件が満たされた後の前記学習データから1つの統計モデルを作成する処理を、前記コンピュータにさらに実行させることを特徴とする請求項26記載のプログラム。
  28. 前記データが通常有する構造情報は、データの変動要因に関するモデルであることを特徴とする請求項25乃至27の何れか1項に記載のプログラム。
  29. 前記データの変動要因に関するモデルは、典型的な変動を受けたデータの複数個のセットであることを特徴とする請求項28記載のプログラム。
  30. 前記データの変動要因に関するモデルは、変動を受けたデータの典型的なパターンを表した確率モデルであることを特徴とする請求項28記載のプログラム。
  31. 前記確率モデルはガウス混合モデルであることを特徴とする請求項30記載のプログラム。
  32. 変動要因による様々な影響を受けた多数のデータを複数個のクラスタに分類し、前記クラスタ毎に前記ガウス混合モデルを生成する処理を、前記コンピュータにさらに行わせることを特徴とする請求項31記載のプログラム。
  33. 前記データは音声信号であり、前記変動要因は話者、雑音環境のうち少なくともいずれか一つであることを特徴とする請求項28乃至32の何れか1項に記載のプログラム。
  34. 前記データは文字画像であり、前記変動要因は筆者、フォント、筆記具のうち少なくともいずれか一つであることを特徴とする請求項28乃至32の何れか1項に記載のプログラム。
  35. 前記データは物体画像であり、前記変動要因は照明条件、物体の姿勢のうち少なくともいずれか一つであることを特徴とする請求項28乃至32の何れか1項に記載のプログラム。
  36. 前記データ分類処理では、前記確率モデルとラベルが付与されたデータとの類似度に基づいて、前記ラベルが付与されたデータから複数個のサブセットを抽出することを特徴とする請求項30乃至32の何れか1項に記載のプログラム。
  37. 前記所定の条件は、前記サイクルの繰り返し数、前記学習データの量、または、前記統計モデルの更新状況の何れか1つまたは複数の組み合わせによって定められていることを特徴とする請求項2または3記載の統計モデル学習装置。
JP2010534655A 2008-10-21 2009-07-22 統計モデル学習装置、統計モデル学習方法、およびプログラム Active JP5321596B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010534655A JP5321596B2 (ja) 2008-10-21 2009-07-22 統計モデル学習装置、統計モデル学習方法、およびプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2008270802 2008-10-21
JP2008270802 2008-10-21
PCT/JP2009/003416 WO2010047019A1 (ja) 2008-10-21 2009-07-22 統計モデル学習装置、統計モデル学習方法、およびプログラム
JP2010534655A JP5321596B2 (ja) 2008-10-21 2009-07-22 統計モデル学習装置、統計モデル学習方法、およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2010047019A1 JPWO2010047019A1 (ja) 2012-03-15
JP5321596B2 true JP5321596B2 (ja) 2013-10-23

Family

ID=42119077

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010534655A Active JP5321596B2 (ja) 2008-10-21 2009-07-22 統計モデル学習装置、統計モデル学習方法、およびプログラム

Country Status (3)

Country Link
US (1) US20110202487A1 (ja)
JP (1) JP5321596B2 (ja)
WO (1) WO2010047019A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10475442B2 (en) 2015-11-25 2019-11-12 Samsung Electronics Co., Ltd. Method and device for recognition and method and device for constructing recognition model
US10878657B2 (en) 2018-07-25 2020-12-29 Konami Gaming, Inc. Casino management system with a patron facial recognition system and methods of operating same
US11521460B2 (en) 2018-07-25 2022-12-06 Konami Gaming, Inc. Casino management system with a patron facial recognition system and methods of operating same

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8521664B1 (en) * 2010-05-14 2013-08-27 Google Inc. Predictive analytical model matching
US8438122B1 (en) 2010-05-14 2013-05-07 Google Inc. Predictive analytic modeling platform
US8473431B1 (en) 2010-05-14 2013-06-25 Google Inc. Predictive analytic modeling platform
US8533222B2 (en) 2011-01-26 2013-09-10 Google Inc. Updateable predictive analytical modeling
US8595154B2 (en) 2011-01-26 2013-11-26 Google Inc. Dynamic predictive modeling platform
US8533224B2 (en) 2011-05-04 2013-09-10 Google Inc. Assessing accuracy of trained predictive models
US8554703B1 (en) * 2011-08-05 2013-10-08 Google Inc. Anomaly detection
US8370279B1 (en) 2011-09-29 2013-02-05 Google Inc. Normalization of predictive model scores
JP5821590B2 (ja) * 2011-12-06 2015-11-24 富士ゼロックス株式会社 画像識別情報付与プログラム及び画像識別情報付与装置
US9031897B2 (en) * 2012-03-23 2015-05-12 Nuance Communications, Inc. Techniques for evaluation, building and/or retraining of a classification model
US9679224B2 (en) * 2013-06-28 2017-06-13 Cognex Corporation Semi-supervised method for training multiple pattern recognition and registration tool models
JP6072103B2 (ja) * 2015-02-04 2017-02-01 エヌ・ティ・ティ・コムウェア株式会社 学習装置、学習方法、およびプログラム
JP6267667B2 (ja) * 2015-03-02 2018-01-24 日本電信電話株式会社 学習データ生成装置、方法及びプログラム
JP6073952B2 (ja) * 2015-03-23 2017-02-01 日本電信電話株式会社 学習データ生成装置、方法及びプログラム
US10074042B2 (en) 2015-10-06 2018-09-11 Adobe Systems Incorporated Font recognition using text localization
US9875429B2 (en) 2015-10-06 2018-01-23 Adobe Systems Incorporated Font attributes for font recognition and similarity
US10692012B2 (en) * 2016-05-29 2020-06-23 Microsoft Technology Licensing, Llc Classifying transactions at network accessible storage
US10007868B2 (en) * 2016-09-19 2018-06-26 Adobe Systems Incorporated Font replacement based on visual similarity
JP6874827B2 (ja) 2017-03-21 2021-05-19 日本電気株式会社 画像処理装置、画像処理方法及び記録媒体
WO2019017874A1 (en) * 2017-07-17 2019-01-24 Intel Corporation DATA MANAGEMENT TECHNIQUES OF CALCULATION MODEL
US11537814B2 (en) 2018-05-07 2022-12-27 Nec Corporation Data providing system and data collection system
US10950017B2 (en) 2019-07-08 2021-03-16 Adobe Inc. Glyph weight modification
US11295181B2 (en) 2019-10-17 2022-04-05 Adobe Inc. Preserving document design using font synthesis

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11316754A (ja) * 1998-05-06 1999-11-16 Nec Corp 実験計画法及び実験計画プログラムを記録した記録媒体
JP2001229026A (ja) * 1999-12-09 2001-08-24 Nec Corp 知識発見方式
JP2005258480A (ja) * 2002-02-20 2005-09-22 Nec Corp 能動学習システム及びそれに用いる能動学習法並びにそのプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5428710A (en) * 1992-06-29 1995-06-27 The United States Of America As Represented By The Administrator Of The National Aeronautics And Space Administration Fast temporal neural learning using teacher forcing
US7263489B2 (en) * 1998-12-01 2007-08-28 Nuance Communications, Inc. Detection of characteristics of human-machine interactions for dialog customization and analysis
KR100612840B1 (ko) * 2004-02-18 2006-08-18 삼성전자주식회사 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11316754A (ja) * 1998-05-06 1999-11-16 Nec Corp 実験計画法及び実験計画プログラムを記録した記録媒体
JP2001229026A (ja) * 1999-12-09 2001-08-24 Nec Corp 知識発見方式
JP2005258480A (ja) * 2002-02-20 2005-09-22 Nec Corp 能動学習システム及びそれに用いる能動学習法並びにそのプログラム

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
CSNG200400501003; 馬見塚拓ほか1名: '集団能動学習-データマイニング・バイオインフォマティックスへの展開-' 電子情報通信学会論文誌 VOL.J85-D-II NO.5, 200205, pp.717-724, 社団法人電子情報通信学会 *
CSNG200600661040; 加藤智之ほか3名: '音響尤度を用いた書き起こしデータ選択による音響モデル構築コストの削減' 情報処理学会研究報告(2005-SLP-59) Vol.2005 No.127, 20051222, pp.229-234, 社団法人情報処理学会 *
CSNG201000286003; 濱中悠三ほか4名: '音声認識のための複数の認識器を利用した能動学習' 電子情報通信学会技術研究報告 vol.2009-SLP-79, no.4, pp.19-23, 社団法人電子情報通信学会 *
JPN6013017366; 加藤智之ほか3名: '音響尤度を用いた書き起こしデータ選択による音響モデル構築コストの削減' 情報処理学会研究報告(2005-SLP-59) Vol.2005 No.127, 20051222, pp.229-234, 社団法人情報処理学会 *
JPN6013017367; Gokhan Tur et al.: 'Active learning for spoken language understanding' 2003 IEEE International Conference on Acoustics, Speech, and Signal Processing, 2003 Proceedings(ICA vol.1, 20030406, pp.I-276-I-279 *
JPN6013017369; Ido Dagan et al.: 'Committee-Based Sampling For Training Probabilistic Classifiers' In Proceedings of the Twelfth International Conference on Machine Learning , 1995, pp.150-157 *
JPN6013017371; 馬見塚拓ほか1名: '集団能動学習-データマイニング・バイオインフォマティックスへの展開-' 電子情報通信学会論文誌 VOL.J85-D-II NO.5, 200205, pp.717-724, 社団法人電子情報通信学会 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10475442B2 (en) 2015-11-25 2019-11-12 Samsung Electronics Co., Ltd. Method and device for recognition and method and device for constructing recognition model
US10878657B2 (en) 2018-07-25 2020-12-29 Konami Gaming, Inc. Casino management system with a patron facial recognition system and methods of operating same
US11455864B2 (en) 2018-07-25 2022-09-27 Konami Gaming, Inc. Casino management system with a patron facial recognition system and methods of operating same
US11521460B2 (en) 2018-07-25 2022-12-06 Konami Gaming, Inc. Casino management system with a patron facial recognition system and methods of operating same

Also Published As

Publication number Publication date
US20110202487A1 (en) 2011-08-18
WO2010047019A1 (ja) 2010-04-29
JPWO2010047019A1 (ja) 2012-03-15

Similar Documents

Publication Publication Date Title
JP5321596B2 (ja) 統計モデル学習装置、統計モデル学習方法、およびプログラム
CN110021308B (zh) 语音情绪识别方法、装置、计算机设备和存储介质
US10109280B2 (en) Blind diarization of recorded calls with arbitrary number of speakers
JP4728972B2 (ja) インデキシング装置、方法及びプログラム
CN106782560B (zh) 确定目标识别文本的方法及装置
Zhuang et al. Real-world acoustic event detection
US8099288B2 (en) Text-dependent speaker verification
JP5229478B2 (ja) 統計モデル学習装置、統計モデル学習方法、およびプログラム
Sainath et al. Exemplar-based processing for speech recognition: An overview
Turnbull et al. Fast recognition of musical genres using RBF networks
Sharma et al. Acoustic model adaptation using in-domain background models for dysarthric speech recognition
CN105122279A (zh) 在识别系统中保守地适配深度神经网络
CN109461441B (zh) 一种自适应、无监督式的课堂教学活动智能感知方法
US8595010B2 (en) Program for creating hidden Markov model, information storage medium, system for creating hidden Markov model, speech recognition system, and method of speech recognition
WO2021174760A1 (zh) 声纹数据生成方法、装置、计算机装置及存储介质
US7702145B2 (en) Adapting a neural network for individual style
CN110992988B (zh) 一种基于领域对抗的语音情感识别方法及装置
Calvo-Zaragoza et al. Hybrid hidden Markov models and artificial neural networks for handwritten music recognition in mensural notation
CN115205930A (zh) 一种基于决策融合的多模态情感分类方法
JP5387274B2 (ja) 標準パタン学習装置、ラベル付与基準算出装置、標準パタン学習方法およびプログラム
US7263486B1 (en) Active learning for spoken language understanding
Putri et al. Music information retrieval using Query-by-humming based on the dynamic time warping
Aradilla Acoustic models for posterior features in speech recognition
CN115512692A (zh) 语音识别方法、装置、设备及存储介质
CN115472185A (zh) 一种语音生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120510

RD07 Notification of extinguishment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7427

Effective date: 20120719

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130416

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130618

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130701

R150 Certificate of patent or registration of utility model

Ref document number: 5321596

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150