JP2014174693A - パターン識別装置、パターン識別方法、プログラム、学習装置および学習方法 - Google Patents

パターン識別装置、パターン識別方法、プログラム、学習装置および学習方法 Download PDF

Info

Publication number
JP2014174693A
JP2014174693A JP2013045895A JP2013045895A JP2014174693A JP 2014174693 A JP2014174693 A JP 2014174693A JP 2013045895 A JP2013045895 A JP 2013045895A JP 2013045895 A JP2013045895 A JP 2013045895A JP 2014174693 A JP2014174693 A JP 2014174693A
Authority
JP
Japan
Prior art keywords
input pattern
subclass
unit
identification
weak classifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013045895A
Other languages
English (en)
Other versions
JP5989576B2 (ja
Inventor
Koji Fujimura
浩司 藤村
Takashi Masuko
貴史 益子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2013045895A priority Critical patent/JP5989576B2/ja
Priority to US14/162,888 priority patent/US9330662B2/en
Publication of JP2014174693A publication Critical patent/JP2014174693A/ja
Application granted granted Critical
Publication of JP5989576B2 publication Critical patent/JP5989576B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】識別精度を向上させる。
【解決手段】パターン識別装置は、受付部と決定部と実行部と算出部と判定部とを備える。受付部は、入力パターンと入力パターンの属性情報とを受付ける。決定部は、入力パターンが属するサブクラスを少なくとも属性情報に基づいて決定する。実行部は、決定されたサブクラスに割り当てられた弱識別器を用いて、入力パターンがクラスに属するか否かを識別し、識別結果と弱識別器の信頼度を出力する。算出部は、識別結果および信頼度に基づく評価値を積算した積算値を算出する。判定部は、決定部、実行部、および、算出部による識別処理の終了条件が満たされたか否かを判定し、終了条件が満たされていない場合は、識別処理を繰り返し、終了条件が満たされた場合は、識別処理を終了し、終了したときの積算値を出力する。
【選択図】図5

Description

本発明の実施形態は、パターン識別装置、パターン識別方法、プログラム、学習装置および学習方法に関する。
パターン識別装置として、複数の弱識別器をカスケード接続して1つの識別器を構成するAdaBoostという手法が知られている。以下では、弱識別器を複数連結したものを1つの識別器(強識別器ともいう)として定義する。AdaBoostは、画像中の顔領域を識別するために有効な手法としてよく使われる。AdaBoostでは、正面、左向き、および、右向きのようなサブクラスによる変化に対応するために、正面用、左向き用、および、右向き用のサブクラス識別器を予め別々に用意しておき、すべてのサブクラス識別器を入力パターンに対して適用する必要がある。
Yoav Freund and Robert E. Schapire, "A decision-theoretic generalization of on-line learning and an application to boosting", EuroCOLT ’95 Proceedings of the Second European Conference on Computational Learning Theory Pages 23-37 S.Z.Li, L. Zhu, Z.Q. Zhang, et al., "Statistical Learning of Multi-View Face Detection", ECCV 2002 C.Huang, H. Ai, Y. Li, S. Lao, "Vector Boosting for Rotation Invariant Multi-View Face Detection", ICCV2005, Vol. 1, 17-21 Oct. 2005, pp.446-453
しかしながら、従来技術では、最初に決定した1つのサブクラスを用いて以降の識別処理を実行するため、最初の決定ルールに性能が大きく依存し,最初の決定ルール設計が適切でない場合、識別精度が低下するという問題があった。
実施形態のパターン識別装置は、受付部と決定部と実行部と算出部と判定部とを備える。受付部は、入力パターンと入力パターンの属性情報とを受付ける。決定部は、入力パターンが属するサブクラスを少なくとも属性情報に基づいて決定する。実行部は、決定されたサブクラスに割り当てられた弱識別器を用いて、入力パターンがクラスに属するか否かを識別し、識別結果と弱識別器の信頼度を出力する。算出部は、識別結果および信頼度に基づく評価値を積算した積算値を算出する。判定部は、決定部、実行部、および、算出部による識別処理の終了条件が満たされたか否かを判定し、終了条件が満たされていない場合は、識別処理を繰り返し、終了条件が満たされた場合は、識別処理を終了し、終了したときの積算値を出力する。
音素の識別にサブクラスを考慮する例を示す図。 従来手法を適用した場合の識別処理を示す図。 実施形態の識別処理を示す図。 第1の実施形態の音声認識装置のブロック図。 識別部の詳細なブロック図。 第1の実施形態における識別処理のフローチャート。 第2の実施形態の学習装置のブロック図。 第2の実施形態における学習処理のフローチャート。 実施形態にかかる装置のハードウェア構成図。
以下に添付図面を参照して、この発明にかかるパターン識別装置の好適な実施形態を詳細に説明する。
(第1の実施形態)
従来技術の問題についてさらに説明する。AdaBoostを応用した手法として、最初に、粗い識別器で、顔領域を抽出し、次に正面用、左向き用、および、右向き用に学習しておいた識別器で識別をかけることによって高精度に顔領域を識別する手法が知られている。しかし、この手法は、入力パターンから推測されるサブクラスに対して適用されるものであり、予め入力パターンと共にサブクラス属性が与えられるケースについては考慮されていない。
図1は、音声認識における音素の識別にサブクラスを考慮する場合の例を示す図である。音素の識別では、図1のように前後の音素コンテキストによって音素の特徴が変化する。このため、音素コンテキストをサブクラスとし、このサブクラスを考慮し識別を行う。
図1では、“u”という音素が入力パターンとして入力された場合の例が示されている。“草”を意味する日本語の音声に対応する音素列“kkusa”と、“無害”を意味する日本語の音声に対応する音素列“mugai”が入力された場合とでは、音素“u”の前後の音素(音素コンテキスト)によって“u”の特徴が変化する。このため、音素が“u”に属することを示すクラスは、複数のサブクラスS1、S2、S3に分割される。なお図1のクラスおよびサブクラスの分割方法は一例であり、これに限られるものではない。
識別対象の音素(図1の例では“u”)は、音素コンテキストに応じていずれかのサブクラスに分類される。なお、以下では音素コンテキストを音素のサブクラス属性(属性情報)ともいう。図1の例では、前の音素が“kk”であることを示すサブクラス属性A1、および、後の音素が“sh”であることを示すサブクラス属性A2を有する場合、入力パターン(音素“u”)はサブクラスS1に分類される。
音声認識システムでは、前後の音素コンテキストは、認識時に既知の情報として入力パターンに付随して与えられることが多い。前後の音素コンテキストによりサブクラスに分類し、AdaBoostなどの手法を適用したと仮定した場合の識別処理について図2を用いて説明する。図2は、従来手法を適用した場合の識別処理の一例を示す図である。AdaBoostなどを適用する場合、何らかの方法で音素コンテキストを予めクラスタリングし、サブクラスを決定した後、各サブクラスに対して独立に識別器を学習する。認識時には、付随する音素コンテキストから入力パターンの属するサブクラスを決定し、決定したサブクラスに紐付けられた識別器を適用する。
例えば、サブクラス1であることが決定された場合、以降の識別処理では、サブクラス1弱識別器11〜14を含むサブクラス1強識別器が使用される。同様に、サブクラス2であることが決定された場合、以降の識別処理では、サブクラス2弱識別器21〜24を含むサブクラス2強識別器が使用される。また、サブクラス3であることが決定された場合、以降の識別処理では、サブクラス3弱識別器31〜34を含むサブクラス3強識別器が使用される。なお、弱識別ステップの数は4に限られるものではない。
このように、従来の手法では、入力パターンに付随するサブクラス属性を利用するにはサブクラス毎に識別器を用意する必要があった。また1つの識別器(強識別器)ではサブクラス属性を考慮した識別を行うことができなかった。
第1の実施形態のパターン識別装置は、複数の弱識別器をカスケード接続して識別を行う。各弱識別器は、サブクラス群とそれぞれのサブクラスに割り当てられた識別器を持つ。本実施形態のパターン識別装置は、入力パターンに付随するサブクラス属性から、いずれのサブクラスに分類されるかを決定し、決定したサブクラスに割り当てられた弱識別器を使用する。
図3は、本実施形態の識別処理の一例を示す図である。図3に示すように、本実施形態では、複数の弱識別ステップごとに、サブクラス属性からサブクラスを決定する。図3では、サブクラスX、Y、Zの3ステップそれぞれで、サブクラスが決定される。なお、ステップ数は3に限られるものではない。サブクラスX、Y、Zが決定された後、サブクラスX、Y、Zそれぞれに対応する弱識別器であるサブクラスX弱識別器41、サブクラスY弱識別器42、サブクラスZ弱識別器43が使用される。これにより、弱識別器を連結した1つの識別器(強識別器)でサブクラス属性を考慮した高精度な識別を行うことが可能となる。
次に、第1の実施形態のパターン識別装置を音声認識装置100に適用した例について説明する。なお、適用可能な装置は音声認識装置に限られるものではない。例えば画像認識装置などのように、パターン識別機能を利用する装置であれば、従来から用いられているあらゆる装置に適用できる。
図4は、第1の実施形態の音声認識装置100の機能構成の一例を示すブロック図である。音声認識装置100は、音声入力部101と、認識処理部110と、出力部102と、記憶部121と、を備えている。
記憶部121は、音声認識処理で参照される各種情報を記憶する。記憶部121は、例えば、音素辞書および単語辞書などを記憶する。記憶部121は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶媒体により構成することができる。
音声入力部101は、認識対象とする音声を入力する。音声入力部101は、例えば、音声入力用マイクなどから音声信号を入力する。
認識処理部110は、入力された音声に対して音声認識処理を実行する。認識処理部110は、候補生成部111と、識別部112と、候補選択部113と、を備えている。
候補生成部111は、入力された音声(音声信号)を受取り、音声認識処理を実行して認識結果の候補である認識候補を生成する。例えば、候補生成部111は、音素辞書や単語辞書を用いて、入力された音声に対して確からしい音素列候補群を生成する。候補生成部111による候補生成処理は、従来から利用されているHMM方式の音声認識処理と同様の方式で実現できる。
識別部112は、パターン識別装置に相当する構成部である。識別部112は、生成された音素列候補に含まれる各音素が、指定されたクラスに属するか否かを識別する。識別部112の詳細については後述する。
候補選択部113は、識別部112による識別結果に基づき、音素列候補から1の候補を選択する。出力部102は、選択された候補を音声認識結果として出力する。
図5は、識別部112の詳細な機能構成の一例を示すブロック図である。識別部112は、ルール記憶部521と、弱識別器記憶部522と、出力記憶部523と、受付部501と、決定部502と、実行部503と、算出部504と、判定部505と、を備えている。
受付部501、決定部502、実行部503、算出部504、および、判定部505は、例えば、CPU(Central Processing Unit)などの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、IC(Integrated Circuit)などのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。
ルール記憶部521は、サブクラス決定ルールを記憶する。サブクラス決定ルールは、サブクラス属性に応じて入力パターンを複数のサブクラスのいずれに分類するかを決定するルールである。例えば、前の音素が“u”であるか否かによって2つのサブクラスに分類するルールをサブクラス決定ルールとすることができる。サブクラス決定ルールは、弱識別器を用いる識別処理(弱識別ステップ)ごとに定められていてもよい。
弱識別器記憶部522は、事前の学習等により得られた弱識別器と、弱識別器の信頼度と、を記憶する。弱識別器は、サブクラスに紐付けられて弱識別器記憶部522に記憶される。
出力記憶部523は、算出部504の出力結果を記憶する。
なお、ルール記憶部521、弱識別器記憶部522、および、出力記憶部523の一部または全部は、図4の記憶部121により実現してもよい。
受付部501は、例えば候補生成部111から入力される、入力パターン(音素)と入力パターンの属性情報(サブクラス属性)とを受け付ける。
決定部502は、入力パターンに付随するサブクラス属性を用いて、入力パターンのサブクラスを決定する。決定部502は、例えば、ルール記憶部521に保存してあるサブクラス決定ルールとサブクラス属性とを用いて、入力パターンのサブクラスを決定する。
実行部503は、決定されたサブクラスに割り当てられた弱識別器を用いて、入力パターンがクラスに属するか否かを識別し、識別の結果(弱識別結果)と弱識別器の信頼度を出力する。例えば実行部503は、まず決定されたサブクラスに紐付けられた弱識別器および当該識別器の信頼度を弱識別器記憶部522から読み出す。実行部503は、読み出した弱識別器を用いて、入力パターンに対して識別を実行し、弱識別結果と、読み出した弱識別器の信頼度と、を出力する。
算出部504は、弱識別結果および信頼度に基づく評価値を積算した積算値(スコア)を算出する。積算値は、例えば出力記憶部523に記憶される。
判定部505は、識別処理の終了条件が満たされたか否かを判定し、終了条件が満たされていない場合は、識別処理を継続する。識別処理では、上記の決定部502、実行部503、および、算出部504による処理が繰り返される。終了条件が満たされた場合は、判定部505は、識別処理を終了し、終了したときの積算値(出力記憶部523に保存されている出力結果)を出力する。
次に、このように構成された音声認識装置100による識別処理について図6を用いて説明する。図6は、第1の実施形態における識別処理の一例を示すフローチャートである。
以下では、音声波形から得られる一般的な音声特徴量MFCC(Mel Frequency Cepstral Coefficient)12次元を入力パターンとする。また、前後の音素コンテキストをサブクラス属性として使用する。例えば、“あ(a)”、“い(i)”、“う(u)”、“え(e)”、“お(o)”という音素があったとする。“うえあ(uea)”という単語の中の”e”という音素が“e”であるか否かというような音素識別を行うときは、“e”の前のコンテキストが“u”となり、後ろのコンテキストが“a”となる。
入力パターンやサブクラス属性はこれらに限定されるものではなく、どのように抽出された入力パターンでもよいし、入力パターンを何れかのサブクラスに決定できるようなサブクラス属性であればどのようなものでもよい。
以下ではクラス識別問題として、入力パターンが音素“a”であるか否かを識別する2クラス問題を例に説明する。入力パターン“a”のサブクラス属性は前のコンテキストが“u”、後ろのコンテキストが“o”であるとする。なお、本実施形態は2クラス識別に限定されるものではなく、多クラス識別においても拡張可能である。
受付部501は、入力パターンと、当該入力パターンのサブクラス属性との入力を受付ける(ステップS101)。例えば、入力パターン“a”、および、サブクラス属性“u”(前のコンテキスト)、“o”(後ろのコンテキスト)を受付ける。
決定部502は、N(N>0)回目の弱識別ステップそれぞれで、受付けられたサブクラス属性(前のコンテキスト“u”、後ろのコンテキスト“o”)に対して、N回目の弱識別ステップに対応するサブクラス決定ルールを適用する。サブクラス決定ルールとしては、例えば、前のコンテキストが音素p(p∈{“a”、“i”、“u”、“e”、“o”})であるか否か、後ろのコンテキストが音素pであるか否かを決定するルールを適用できる。なおサブクラス決定ルールはこのようなルールに限定されるものではない。サブクラス属性を用いてサブクラスに分割し得るルールであればどのようなルールであってもよい。また、サブクラス属性と入力パターンの値とを用いてサブクラスに分割してもよい。例えば、入力パターンが特徴量ベクトルであったとすると、「特徴量ベクトルの第1成分が閾値(例えば5)以下、かつ、サブクラス属性(前のコンテキスト)が“a”である」などのルールを用いてもよい。
ここで、N回目の弱識別ステップに紐付けされているサブクラス決定ルールが、前の音素コンテキストが“u”であるか否かという2つのサブクラスに分類されるルールであるとする。この場合、入力パターン“a”は、前が“u”の音素コンテキストを持っているので、前が“u”であるというサブクラスに分類(決定)される(ステップS102)。
実行部503は、決定されたサブクラス(前の音素コンテキストが“u”であるというサブクラス)に紐付けられた弱識別器を弱識別器記憶部522から読み出す(ステップS103)。実行部503は、読み出した弱識別器による識別処理を実行する(ステップS104)。実行部503は、識別処理の結果(弱識別結果)と弱識別器の信頼度とを出力する。弱識別器による識別処理では、例えばMFCCの予め定められた次元の値が予め定められた閾値よりも大きいか否かが判定される。
この動作は一般的にDecision Stumpと呼ばれる手法と同様である。ここで、入力パターンをxとし、N回目の弱識別ステップの“u”であるというサブクラスに紐付けられた弱識別器をhN0(x)とし、“u”でないというサブクラスに紐付けられた弱識別器をhN1(x)とする。弱識別器hN0(x)が、MFCCの1次元目(MFCC(1))が閾値30より大きければこの入力パターンは“a”であると定められているときに、弱識別器hN0(x)は、以下の(1)式のように動作する。
if MFCC(1)≦30
N0(x)=−1
else
N0(x)=1
・・・(1)
算出部504は、実行部503によって得られた弱識別結果と弱識別器の信頼度とを用いてスコアを算出する(ステップS105)。算出部504は、スコアを積算し、出力記憶部523に保存する。このときスコアSは、予め弱識別器に紐付けされている信頼度αN0(>0)を用いて、以下の(2)式により算出される。
=αN0N0(x) ・・・(2)
算出部504は、スコアSを積算してN回目までの積算値である積算スコアTsNを、以下の(3)式により求める。なお、Ts0は0とする。
sN=TsN−1+S ・・・(3)
判定部505は、識別処理の終了条件を満たすか否かを判定する(ステップS106)。例えば、判定部505は、Nが予め決められた回数まで到達したか否かを判定する。終了条件を満たさない場合(ステップS106:No)、ステップS102に戻り、次の弱識別ステップが繰り返される。終了条件を満たす場合(ステップS106:Yes)、判定部505は、出力記憶部523に保存してある積算スコア(識別結果)を出力して識別処理を終了する(ステップS107)。
上記例では、積算スコアTsNの値が0より大きければ、結果として入力パターンは“a”であると識別される。また、積算スコアTsNの値が0以下であれば“a”でないと識別される。
これまでは、基本的なDecision StumpによるAdaBoostと同様の手法を適用した弱識別器、および、スコア算出方法について説明した。適用可能な手法はこれに限定されるものではない。例えば、Real−AdaBoost、および、Gentle Boostなどを含む、AdaBoostの発展系のBoosting手法などにも適用することが可能である。また弱識別器として入力パターンの共起性などを考慮する手法(例えば、輝度勾配方向共起ヒストグラム(CoHOG(Co-occurrence Histograms of Oriented Gradients))なども適用することができる。また全ステップがサブクラスを考慮した弱識別ステップである必要はなく、一部がサブクラスを考慮しない従来の弱識別ステップ(従来のAdaBoost)でもよい。
このように、第1の実施形態のパターン識別装置では、弱識別器毎にサブクラスを考慮した識別器を用いるため、単一の識別器で、サブクラスを使った、より高精度な識別が可能となる。
(第2の実施形態)
第2の実施形態では、第1の実施形態のパターン識別装置で用いる識別器を学習する学習装置について説明する。図7は、第2の実施形態の学習装置200の機能構成例を示すブロック図である。学習装置200は、学習データ記憶部221と、ルール記憶部222と、弱識別器記憶部223、224と、分割部201と、探索部202と、ルール選択部203と、更新部204と、判定部205と、を備えている。
学習データ記憶部221は、クラスラベルと入力パターンとサブクラス属性と重みとを含む学習データを記憶する。ルール記憶部222は、学習データを、複数のサブクラスのいずれに属するかによって複数の学習データ(以下、サブクラスデータという)へ分割する分割ルールを記憶する。分割ルールは、例えば、“前の音素コンテキストがuであるか否か”、“後ろの音素コンテキストがiであるか否か“などによって、学習データを2つのサブクラスデータに分割するルールである。分割ルールは、このようなルールに限定されるものではなく、学習データを複数のサブクラスデータに分割し得るルールであれば何でもよい。また、サブクラス属性と入力パターンの値とを用いて学習データをサブクラスデータに分割するルールを用いてもよい。
弱識別器記憶部223は、探索部202で算出された分割ルールと、探索部202により探索された弱識別器と、を記憶する。弱識別器記憶部224は、ルール選択部203により選択された分割ルールに対応する弱識別器を記憶する。
分割部201は、学習データ記憶部221に記憶されている学習データを、ルール記憶部222に記憶されている分割ルールによってサブクラスデータに分割する。
探索部202は、分割により得られたサブクラスデータそれぞれに対して、複数の弱識別器のうち、適合度が高い弱識別器を探索する。
ルール選択部203は、探索された弱識別器の信頼度を算出し、複数の分割ルールから、信頼度が高い弱識別器に対応する分割ルールを選択する。例えば、ルール選択部203は、弱識別器記憶部223に記憶された分割ルールの中で最も信頼度の高い分割ルールを選択する。ルール選択部203は、選択した分割ルールと、選択した分割ルールに付随する弱識別器と、信頼度と、を弱識別器記憶部224に記憶する。
更新部204は、弱識別器記憶部224に保存された分割ルールと、当該分割ルールに付随する弱識別器と、信頼度と、を用いて学習データの重みを更新する。
判定部205は、弱識別器の探索を終了するか否かの判定を行う。
分割部201、探索部202、ルール選択部203、更新部204、および、判定部205は、例えば、CPU(Central Processing Unit)などの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、IC(Integrated Circuit)などのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。
次に、このように構成された学習装置200による学習処理について図8を用いて説明する。図8は、第2の実施形態における学習処理の一例を示すフローチャートである。
第2の実施形態では第1の実施形態と同様に、学習データ記憶部221に保存してある入力パターン(学習データ)は、音声波形から得られる音声特徴量MFCC12次元とする。また、前後の音素コンテキストをサブクラス属性として使用する。第1の実施形態と同様に、本実施形態の入力パターンやサブクラス属性はこれらに限定されるものではなく、どのように抽出された入力パターンでもよいし、入力パターンを何れかのサブクラスに決定できるようなサブクラス属性であれば何でもよい。
以下では、入力パターンが音素“a”であるか否かを識別する2クラス識別器の学習を行う例を説明する。本実施形態は2クラス識別に限定されるものではなく、多クラス識別にも拡張可能である。
学習データ記憶部221は、複数の学習データを保存している。各学習データは、例えば、“a”か”aではない”というクラスラベルを持つとともに、“前の音素コンテキストがu”、“後ろの音素コンテキストがi“というような前後の音素コンテキストをサブクラス属性として持つ、MFCC12次元のベクトルデータである。また、各学習データはそれぞれ重み係数を持つ。N回目における各データの重み係数は、(N−1)回目の学習処理の中で更新部204によって決定される。
N=1回目に関しては、“a”のクラスラベルを持つ学習データに対する重みは、“a”のクラスラベルを持った学習データの総数の逆数を2で割った値(初期データ重み)を用いる。また、“aではない”のクラスラベルを持つデータに対する重みは、“aではない”のクラスラベルを持った学習データの総数の逆数を2で割ったもの用いる。
なお、重みの初期値(初期データ重み)はこれに限定されるものではない。例えば、予め、強調したいデータなどに対して大きい重みを付けるなどをして意図的に初期データの重みを変化させてもよい。
N(N>0)回目の弱識別器学習ステップそれぞれで、分割部201は、ルール記憶部222から分割ルールを1つ取り出す(ステップS201)。以下では分割ルールとして、“前の音素コンテキストがuであるか否か”、“後ろの音素コンテキストがeであるか否か”、“前の音素コンテキストがaであるか否か”という分割ルールを用いる例を説明する。
分割部201は、取り出した分割ルール(例えば、“前の音素コンテキストがuであるか否か”という分割ルールd)によって学習データを複数のサブクラスデータに分割する(ステップS202)。2クラス識別の場合は、学習データは2つのサブクラスデータに分割される。
探索部202は、分割ルールdによって得られる各サブクラスデータに対して適合度の高い弱識別器を算出する(ステップS203)。各サブクラスデータに対して弱識別器を算出する手法は、従来のAdaBoostの弱識別器算出方法とほぼ同じである。以下に、従来のAdaBoostの学習方法について説明する。
N個の学習データ(x1、y1)、・・・、(xi,yi)、・・・、(xN、yN)(1≦i≦N)が存在するものとする。ここでxiは何らかの特徴をもつデータであり、yi∈(1、−1)はxiが属するクラスラベルである。一般的にはAdaBoostによって検出する対象を1のクラスラベルとし、その他を−1のクラスラベルとする。このとき、以下のステップA1〜A2によりAdaBoostの学習処理を実行する。
ステップA1:学習データの重みDo(i)を以下の(4)式で初期化する。
Figure 2014174693
ステップA2:重みを考慮したt回目の学習データの重み分布Dtにおいて、学習データに対する誤り率ε(以下の(5)式)が最小になるように弱識別器h(x)を学習する。
Figure 2014174693
ステップA3:信頼度αをεから算出する(以下の(6)式)。
Figure 2014174693
ステップA4:学習データの重みを更新する(以下の(7)式)。
Figure 2014174693
ステップA5:学習データの重みが1になるよう正規化処理を行う(以下の(8)式)。
Figure 2014174693
ステップA2〜ステップA5をT回繰り返し、弱識別器および信頼度をT個求める。最終的な強識別器H(x)は、選択されたT個の弱識別器の信頼度を重みとした重み付き和となる(以下の(9)式)。
Figure 2014174693
このようにして、H(x)>0ならば、入力xは検出対象であり、それ以外ならば入力xは検出対象ではないことを識別する識別関数が導かれる。
従来のAdaBoostでは、重みを考慮したN回目の学習データ重み分布Dにおいて、誤り率εN((5)式)が最小になるように弱識別器h(x)を学習した。本実施形態では、分割ルールd(前の音素コンテキストが“u”であるか、など)によって学習重み分布(学習データ)を分割して得られるサブクラス重み分布DNd0、DNd1(サブクラスデータ)に対して、誤り率εNd0、εNd1が最小となる弱識別器hNd0(x)、hNd1(x)を求める。
最適な弱識別器は、Decision Stumpと同様の方法で求めることができる。例えば、MFCCの12次元を順々に探索し、“a”か“aではない”というクラス識別率が最も高くなる次元と閾値を探索することにより求められる。
閾値に関しては、学習データ記憶部221に記憶されている学習データの値を全探索することで最適な閾値を得る。探索部202は、算出された弱識別器(例えば、最適な次元、および、閾値とその閾値に対して大きいほうか小さいほうのいずれが“a”であると識別されるかを示す情報)を、N回目の弱識別器学習ステップにおける該当分割ルールdに紐付けて弱識別器記憶部223に保存する。
このようにして、各分割ルールによって定められるサブクラス(サブクラスデータ)に対して最適な弱識別器が求められる。
探索部202は、すべての分割ルールを処理したか否かを判定する(ステップS204)。すべての分割ルールを処理していない場合(ステップS204:No)、分割部201は、次の分割ルールを読み出して処理を繰り返す。なお、すべての分割ルールの探索を探索部202による探索の打ち切りの条件とするのではなく、各サブクラスデータに対する弱識別器の適合度などによって探索を打ち切ってもよい。
すべての分割ルールを処理した場合(ステップS204:Yes)、ルール選択部203は、最適な分割ルールを弱識別器記憶部223から選択する(ステップS205)。弱識別器記憶部223には、N回目の弱識別器学習ステップにおいて、すべての分割ルールに紐付けられた各サブクラスの弱識別器が保存されている。ルール選択部203は、これらの弱識別器を各サブクラスデータに適用し、全学習データ重み分布Dにおいて、誤り率εN((5)式)が最小になるような分割ルールを選択する。
ルール選択部203は、選択された分割ルールと、信頼度αとを弱識別器記憶部224に保存する(ステップS206)。信頼度αは、選択された分割ルールに紐付けされた弱識別器と、誤り率εNとを用いて(6)式から得られる。ルール選択部203は、その後、弱識別器記憶部223に保存されているデータを消去する。
なお、弱識別器記憶部224に保存する信頼度は、全学習データ重み分布Dにおける誤り率εNから得られる単一の信頼度αに限定されるものではない。例えば、サブクラス重み分布DNd0、DNd1に対する誤り率εNdo、εNd1から(6)式を用いて得られる複数の信頼度αNd0、αNd1等を保存して用いてもよい。
次に、更新部204は、弱識別器記憶部224に保存してある分割ルールと、当該分割ルールに紐付けされた弱識別器と、信頼度と、から学習データに対する重み(重み係数)を算出する。更新部204は、算出した重み係数で、学習データ記憶部221に記憶されている学習データの重み係数を更新する(ステップS207)。更新部204は、例えば、弱識別器記憶部224に保存してある弱識別器と信頼度αと学習データ記憶部221に保存してあるクラスラベルとを用いて、(7)式および(8)式より、学習データ重み分布DN+1を求める。
判定部205は、終了条件を満たすか否かを判定する(ステップS208)。例えば、判定部205は、予め定められた回数の弱識別器学習ステップが終了したかを終了条件とする、終了条件を満たさない場合(ステップS208:No)、ステップS201に戻り処理が繰り返される。終了条件を満たす場合(ステップS208:Yes)、学習処理が終了する。
このような学習処理により、サブクラスを考慮した識別器を学習することが可能となる。本実施形態では基本的なDecision StumpによるAdaBoostを用いた弱識別器学習の説明を行ったが、適用可能な手法はこれに限定されるものではない。Real−AdaBoostや、Gentle Boostなどを含む、AdaBoostの発展系のBoosting手法などを適用してもよい。また弱識別器として入力パターンの共起性などを考慮する手法(例えば、輝度勾配方向共起ヒストグラム)なども適用することができる。また全ステップの学習でサブクラスを考慮する必要はなく、一部がサブクラスを考慮しない従来の学習手法(従来のAdaBoost)でもよい。
以上説明したとおり、第1から第2の実施形態によれば、サブクラスを使った、より高精度な識別が可能となる。
次に、第1または第2の実施形態にかかる装置(パターン識別装置、学習装置)のハードウェア構成について図9を用いて説明する。図9は、第1または第2の実施形態にかかる装置のハードウェア構成を示す説明図である。
第1または第2の実施形態にかかる装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM(Random Access Memory)53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
第1または第2の実施形態にかかる装置で実行されるプログラムは、ROM52等に予め組み込まれて提供される。
第1または第2の実施形態にかかる装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
さらに、第1または第2の実施形態にかかる装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1または第2の実施形態にかかる装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
第1または第2の実施形態にかかる装置で実行されるプログラムは、コンピュータを上述した装置の各部として機能させうる。このコンピュータは、CPU51がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100 音声認識装置
101 音声入力部
102 出力部
110 認識処理部
111 候補生成部
112 識別部
113 候補選択部
121 記憶部
200 学習装置
201 分割部
202 探索部
203 ルール選択部
204 更新部
205 判定部
221 学習データ記憶部
222 ルール記憶部
223,224 弱識別器記憶部
501 受付部
502 決定部
503 実行部
504 算出部
505 判定部
521 ルール記憶部
522 弱識別器記憶部
523 出力記憶部

Claims (7)

  1. 複数のサブクラスに分割されるクラスに入力パターンが属するか否かを識別するパターン識別装置であって、
    前記入力パターンと、前記入力パターンの属性情報と、を受付ける受付部と、
    前記入力パターンが属する前記サブクラスを少なくとも前記属性情報に基づいて決定する決定部と、
    決定された前記サブクラスに割り当てられた弱識別器を用いて、前記入力パターンが前記クラスに属するか否かを識別し、識別結果と前記弱識別器の信頼度を出力する実行部と、
    前記識別結果および前記信頼度に基づく評価値を積算した積算値を算出する算出部と、
    前記決定部、前記実行部、および、前記算出部による識別処理の終了条件が満たされたか否かを判定し、前記終了条件が満たされていない場合は、前記識別処理を繰り返し、前記終了条件が満たされた場合は、前記識別処理を終了し、終了したときの前記積算値を出力する判定部と、
    を備えるパターン識別装置。
  2. 前記決定部は、前記入力パターンと、前記属性情報とに基づいて、前記入力パターンが属する前記サブクラスを決定する、
    請求項1に記載のパターン識別装置。
  3. 音声を入力する音声入力部と、
    前記音声に含まれる音素の1以上の候補を生成する候補生成部と、をさらに備え、
    前記受付部は、前記候補を入力パターンとして受付け、
    前記判定部は、前記積算値に基づいて前記候補が前記クラスに属するか否かを判定し、
    前記判定部による判定結果に基づいて、前記候補から1の候補を選択する候補選択部と、をさらに備える、
    請求項1に記載のパターン識別装置。
  4. 複数のサブクラスに分割されるクラスに入力パターンが属するか否かを識別するパターン識別装置で実行されるパターン識別方法であって、
    前記入力パターンと、前記入力パターンの属性情報と、を受付ける受付ステップと、
    前記入力パターンが属する前記サブクラスを少なくとも前記属性情報に基づいて決定する決定ステップと、
    決定された前記サブクラスに割り当てられた弱識別器を用いて、前記入力パターンが前記クラスに属するか否かを識別し、識別結果と前記弱識別器の信頼度を出力する実行ステップと、
    前記識別結果および前記信頼度に基づく評価値を積算した積算値を算出する算出ステップと、
    前記決定ステップ、前記実行ステップ、および、前記算出ステップによる識別処理の終了条件が満たされたか否かを判定し、前記終了条件が満たされていない場合は、前記識別処理を繰り返し、前記終了条件が満たされた場合は、前記識別処理を終了し、終了したときの前記積算値を出力する判定ステップと、
    を含むパターン識別方法。
  5. 複数のサブクラスに分割されるクラスに入力パターンが属するか否かを識別するパターン識別装置を、
    前記入力パターンと、前記入力パターンの属性情報と、を受付ける受付部と、
    前記入力パターンが属する前記サブクラスを少なくとも前記属性情報に基づいて決定する決定部と、
    決定された前記サブクラスに割り当てられた弱識別器を用いて、前記入力パターンが前記クラスに属するか否かを識別し、識別結果と前記弱識別器の信頼度を出力する実行部と、
    前記識別結果および前記信頼度に基づく評価値を積算した積算値を算出する算出部と、
    前記決定部、前記実行部、および、前記算出部による識別処理の終了条件が満たされたか否かを判定し、前記終了条件が満たされていない場合は、前記識別処理を繰り返し、前記終了条件が満たされた場合は、前記識別処理を終了し、終了したときの前記積算値を出力する判定部と、
    として機能させるためのプログラム。
  6. 入力パターンの属性情報に基づいて、入力パターンをサブクラスに分割するルールを表す複数の分割ルールを記憶するルール記憶部と、
    前記入力パターンと重みとを含む複数の学習データを、前記分割ルールおよび前記属性情報に基づいて複数の前記サブクラスに対応する複数のサブクラスデータに分割する分割部と、
    分割された前記サブクラスデータそれぞれに対して、複数の弱識別器のうち、前記サブクラスデータに対する適合度が高い弱識別器を探索する探索部と、
    探索された前記弱識別器の信頼度を算出し、複数の前記分割ルールから、前記信頼度が高い前記弱識別器に対応する前記分割ルールを選択するルール選択部と、
    選択された前記分割ルールに対応する前記弱識別器の前記信頼度に基づいて前記学習データに含まれる前記重みを更新する更新部と、
    を備える学習装置。
  7. 学習装置で実行される学習方法であって、
    前記学習装置は、入力パターンの属性情報に基づいて、入力パターンをサブクラスに分割するルールを表す複数の分割ルールを記憶するルール記憶部を備え、
    前記入力パターンと重みとを含む複数の学習データを、前記分割ルールおよび前記属性情報に基づいて複数の前記サブクラスに対応する複数のサブクラスデータに分割する分割ステップと、
    分割された前記サブクラスデータそれぞれに対して、複数の弱識別器のうち、前記サブクラスデータに対する適合度が高い弱識別器を探索する探索ステップと、
    探索された前記弱識別器の信頼度を算出し、複数の前記分割ルールから、前記信頼度が高い前記弱識別器に対応する前記分割ルールを選択するルール選択ステップと、
    選択された前記分割ルールに対応する前記弱識別器の前記信頼度に基づいて前記学習データに含まれる前記重みを更新する更新ステップと、
    を含む学習方法。
JP2013045895A 2013-03-07 2013-03-07 パターン識別装置、パターン識別方法、プログラム、学習装置および学習方法 Active JP5989576B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013045895A JP5989576B2 (ja) 2013-03-07 2013-03-07 パターン識別装置、パターン識別方法、プログラム、学習装置および学習方法
US14/162,888 US9330662B2 (en) 2013-03-07 2014-01-24 Pattern classifier device, pattern classifying method, computer program product, learning device, and learning method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013045895A JP5989576B2 (ja) 2013-03-07 2013-03-07 パターン識別装置、パターン識別方法、プログラム、学習装置および学習方法

Publications (2)

Publication Number Publication Date
JP2014174693A true JP2014174693A (ja) 2014-09-22
JP5989576B2 JP5989576B2 (ja) 2016-09-07

Family

ID=51488931

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013045895A Active JP5989576B2 (ja) 2013-03-07 2013-03-07 パターン識別装置、パターン識別方法、プログラム、学習装置および学習方法

Country Status (2)

Country Link
US (1) US9330662B2 (ja)
JP (1) JP5989576B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019079392A (ja) * 2017-10-26 2019-05-23 日本電信電話株式会社 学習装置、分析システム、学習方法および学習プログラム

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9280740B1 (en) * 2015-01-12 2016-03-08 Bank Of America Corporation Transforming predictive models
US9171259B1 (en) * 2015-01-12 2015-10-27 Bank Of America Corporation Enhancing classification and prediction using predictive modeling
CN111652281B (zh) * 2020-04-30 2023-08-18 中国平安财产保险股份有限公司 信息数据的分类方法、装置及可读存储介质
CN112750448B (zh) * 2020-08-07 2024-01-16 腾讯科技(深圳)有限公司 声音场景的识别方法、装置、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5394959B2 (ja) * 2010-03-23 2014-01-22 富士フイルム株式会社 判別器生成装置および方法並びにプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6016026603; 藤村浩司 外3名: 'AdaBoost音素識別器によるNベストリスコアリングの検討' 日本音響学会 2011年 春季研究発表会講演論文集CD-ROM , 20110302, p.13-14 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019079392A (ja) * 2017-10-26 2019-05-23 日本電信電話株式会社 学習装置、分析システム、学習方法および学習プログラム

Also Published As

Publication number Publication date
US20140257810A1 (en) 2014-09-11
JP5989576B2 (ja) 2016-09-07
US9330662B2 (en) 2016-05-03

Similar Documents

Publication Publication Date Title
US10002290B2 (en) Learning device and learning method for object detection
JP4728972B2 (ja) インデキシング装置、方法及びプログラム
JP5989576B2 (ja) パターン識別装置、パターン識別方法、プログラム、学習装置および学習方法
CN107180084B (zh) 词库更新方法及装置
CN110349597B (zh) 一种语音检测方法及装置
US20180260737A1 (en) Information processing device, information processing method, and computer-readable medium
JP2020053073A (ja) 学習方法、学習システム、および学習プログラム
JP5692493B2 (ja) 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法
WO2014118978A1 (ja) 学習方法、情報処理装置および学習プログラム
US20180005087A1 (en) Pattern recognition device, pattern recognition method, and computer program product
WO2016181474A1 (ja) パターン認識装置、パターン認識方法およびプログラム
JP2009129253A (ja) パターン認識装置、パターン認識プログラム及びパターン認識方法
US10891942B2 (en) Uncertainty measure of a mixture-model based pattern classifer
Dileep et al. Speaker recognition using pyramid match kernel based support vector machines
JP4533160B2 (ja) 識別的学習方法、装置、プログラム、識別的学習プログラムを記録した記録媒体
JP2016062249A (ja) 識別辞書学習システム、認識辞書学習方法および認識辞書学習プログラム
Viszlay et al. Alternative phonetic class definition in linear discriminant analysis of speech
CN110419078B (zh) 用于自动语音识别的系统和方法
JP6235368B2 (ja) パターン認識装置、パターン認識方法およびプログラム
JP4226942B2 (ja) アクセント位置推定方法、装置およびプログラム
JP7283566B2 (ja) モデル生成システム、方法およびプログラム
CN113705216B (zh) 依赖关系的检测方法、装置及设备
CN109146002B (zh) 一种gmm识别器的快速识别方法
JP7070663B2 (ja) 識別器修正装置、識別器修正方法、およびプログラム
De Wachter et al. Evaluating acoustic distance measures for template based recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150914

RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20151102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160712

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160810

R151 Written notification of patent or utility model registration

Ref document number: 5989576

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

Free format text: JAPANESE INTERMEDIATE CODE: R313114

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350