JP6235368B2 - パターン認識装置、パターン認識方法およびプログラム - Google Patents

パターン認識装置、パターン認識方法およびプログラム Download PDF

Info

Publication number
JP6235368B2
JP6235368B2 JP2014027689A JP2014027689A JP6235368B2 JP 6235368 B2 JP6235368 B2 JP 6235368B2 JP 2014027689 A JP2014027689 A JP 2014027689A JP 2014027689 A JP2014027689 A JP 2014027689A JP 6235368 B2 JP6235368 B2 JP 6235368B2
Authority
JP
Japan
Prior art keywords
model
recognition
feature vectors
state
pattern recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014027689A
Other languages
English (en)
Other versions
JP2015153240A (ja
Inventor
聡一郎 小野
聡一郎 小野
博之 水谷
博之 水谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Digital Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Digital Solutions Corp filed Critical Toshiba Corp
Priority to JP2014027689A priority Critical patent/JP6235368B2/ja
Publication of JP2015153240A publication Critical patent/JP2015153240A/ja
Application granted granted Critical
Publication of JP6235368B2 publication Critical patent/JP6235368B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Discrimination (AREA)

Description

本発明の実施形態は、パターン認識装置、パターン認識方法およびプログラムに関する。
パターン認識の分野では、認識単位の区切りが明らかでない入力信号をパターン認識するための方法として、以下の2つの方法が知られている。1つ目の方法は、入力信号を複数の要素に分割した後に所定の基準に従って結合し、それぞれを個別に認識する方法(以下、この方法を「解析的方法」と呼ぶ。)である。2つ目の方法は、隠れマルコフモデル(HMM:Hidden Markov Model)などの確率モデルを用いて、入力信号の分割箇所としてあらゆる可能性を考えながら認識と分割を同時に行う方法(以下、この方法を「全体的方法」と呼ぶ。)である。
しかし、解析的方法では、一旦分割した要素をヒューリスティックな方法によって結合するため、認識の精度が十分に確保できない場合がある。一方、全体的方法では、あらゆる分割箇所の可能性を考えながら処理を行うため計算量が大きく、高いスペックのハードウェア資源が要求される。このように、解析的方法と全体的方法にはそれぞれ欠点があるため、これらの欠点を解消した新たな技術の提供が望まれている。
村瀬洋 ほか、"言語情報を導入した手書き文字列からの文字の切り出しと認識"、信学論(D)、J69-D(9)、pp.1292-1301、1986 F.Camastra et al."Machine Learning for Audio,Image and Video Analysis:Theory and Applications"、Springer-Verlag、2007
本発明が解決しようとする課題は、認識単位の区切りが明らかでない入力信号に対し、少ない計算量で高精度な認識を行うことができるパターン認識装置、パターン認識方法およびプログラムを提供することである。
実施形態のパターン認識装置は、分割部と、特徴抽出部と、認識部と、を備える。分割部は、入力された信号を複数の要素に分割する。特徴抽出部は、分割された各要素のそれぞれを同一次元数の特徴ベクトルに変換して特徴ベクトルの集合を生成する。認識部は、認識辞書を用いて前記特徴ベクトルの集合を評価し、入力された信号が属するクラスまたはクラスの集合を表す認識結果を出力する。前記認識部が用いる前記認識辞書は、それぞれのクラスに対応するモデルを含み、前記モデルは、該モデルに対応するクラスに分類されるべき信号が複数の要素に分割される際に取り得る分割パターンのそれぞれに対応するサブモデルを有し、前記サブモデルは、該サブモデルに対応する分割パターンによって分割された各要素のそれぞれに対応する状態であって、前記特徴ベクトルと該状態を表すラベルの関数によって表現される状態を有する。前記認識部は、前記特徴ベクトルの集合に適合する前記サブモデルを有するモデルを表現するラベル、または、前記特徴ベクトルの集合に適合する前記サブモデルを有するモデルの集合を表現するラベルの集合を、前記認識結果として出力する。
図1は、実施形態のパターン認識装置の機能的な構成例を示すブロック図である。 図2は、入力された信号を複数の要素に分割する処理の概念図である。 図3は、認識辞書に含まれるモデルの概念図である。 図4は、認識辞書に含まれるモデルの概念図である。 図5は、実施形態のパターン認識装置による処理手順の一例を示すフローチャートである。 図6は、従来の解析的方法を説明する概念図である。 図7は、ノイズ状態を含むモデルの概念図である。 図8は、韓国語文字を要素に分割する処理の概念図である。 図9は、韓国語文字の分割パターンの一例を示す図である。 図10は、実施形態のパターン認識装置のハードウェア構成例を示すブロック図である。
以下、実施形態のパターン認識装置、パターン認識方法およびプログラムを、図面を参照しながら説明する。
本実施形態のパターン認識装置は、従来の解析的方法と全体的方法とを組み合わせた新規な方法により、認識単位の区切りが明らかでない入力信号に対するパターン認識を行う。すなわち、入力された信号を複数の要素に分割して要素の特徴ベクトルの集合を求め、確率モデルを用いて、特徴ベクトルの集合に適合するクラスまたはその集合を表す認識結果を出力することを基本概念とする。
ここで、入力された信号を複数の要素に分割する際の分割の仕方(分割パターン)は、一般に、それぞれのクラスについて1通りではない。例えば、入力された信号が手書き文字の画像であれば、書き手の癖などによって異なる形態となり得るため、同じクラスに分類されるべき信号であっても、異なる分割パターンで分割される場合がある。そして、同じクラスに分類されるべき信号が異なる分割パターンで分割されると、分割されたそれぞれの要素から抽出される特徴ベクトルの分布および個数が大きく異なるため、隠れマルコフモデルにおけるleft−to−rightモデル(非特許文献2を参照)などの標準的なモデルでは、入力された信号を正しく認識することができない。
そこで、本実施形態では、それぞれのクラスについて、そのクラスに分類されるべき信号が取り得る分割パターンのそれぞれをサブモデルとし、これらサブモデルすべてを結合したものを、当該クラスに対応するモデルとして用いる。
図1は、本実施形態のパターン認識装置の機能的な構成を示すブロック図である。図1に示すように、本実施形態のパターン認識装置は、信号入力部1、分割部2、特徴抽出部3、および認識部4を備える。
信号入力部1は、認識対象となる信号の入力を受け付ける。認識対象となる信号は、例えば、画像として表される文字や文字列、その他の画像、波形として表される音声信号や各種のセンサ信号などであり、これらのディジタル情報、または必要に応じて二値化などの前処理を施したディジタル情報が、信号入力部1に入力される。
分割部2は、信号入力部1に入力された信号を、複数の要素に分割する。具体的には、信号入力部1に入力された信号が文字列画像である場合、分割部2の処理は、例えば、下記の参考文献1に記載されている射影および連結成分分析、あるいは非特許文献1に記載されている「基本セグメントへの分割」の方法などを適用することで実現できる。
<参考文献1>A.Rosenfeld ほか、「ディジタル画像処理」(長尾真監訳)、近代科学社、1978年
図2は、入力された信号を複数の要素に分割する処理の概念図であり、「水の」という文字列画像が分割部2によって5つの要素に分割された様子を示している。この図2に示す例では文字列画像を分割する方向が一方向であるが、これに限らず、二次元の分割パターンで信号を複数の要素に分割してもよい。
また、信号入力部1に入力された信号が音声信号や各種のセンサ信号などのように時系列の波形で表される信号である場合、分割部2の処理は、例えば、信号のパワーが閾値以下になっている状態が一定時間以上継続している箇所を分割箇所とする方法などを適用することで実現できる。
分割した各要素には、それぞれ順序が与えられる。各要素の順序は、元の信号が画像であれば画像中の水平方向の座標、元の信号が音声信号やセンサ信号などの時系列の波形であれば時刻などを基準に、分割した各要素の順序を定めることができる。このとき、分割した各要素に系列などの構造を持たせ、構造内における位置情報を付与してもよい。具体的な例として、図2に示した文字列画像から分割された各要素に対し、左から順に番号を位置情報として付与する方法や、音声信号や各種のセンサ信号などの時系列の波形から分割された各要素に対し、時刻が早い順に番号を位置情報として付与する方法が考えられる。また、分割の方向が一方向でない画像を扱う場合は、後述するように、分割パターンごとにその分割パターンで分割される各要素の記号を予め定めておき(図8参照)、その記号を位置情報として付与する方法などが考えられる。
特徴抽出部3は、分割部2によって分割された各要素のそれぞれを同一次元数の特徴ベクトルに変換して、特徴ベクトルの集合を生成する。具体的には、特徴抽出部3は、まず分割されたそれぞれの要素をなす信号に、長さや量子化レベルを正規化するなどの前処理を施す。そして、特徴抽出部3は、その前処理後の値や、前処理後の信号にさらにガウシアンフィルタなどのフィルタ処理やフーリエ変換などの変換処理を施した後の値を成分とする特徴ベクトルを、その要素の特徴ベクトルとして出力する。このとき、各要素の特徴ベクトルを、すべてノルムが1となるように正規化してもよい。特徴抽出部3は、このようにしてそれぞれの要素から特徴ベクトルを1つずつ抽出し、特徴ベクトル集合を生成する。
要素を特徴ベクトルに変換する処理の具体例としては、例えば、音声信号の要素それぞれの時間を正規化した後、下記の参考文献2に記載されているメル周波数ケプストラム係数特徴を抽出して、それらの値をそのまま並べて特徴ベクトルとする方法がある。また、画像の要素それぞれから、下記の参考文献3に記載されている加重方向指数ヒストグラム特徴を抽出する方法がある。
<参考文献2>古井貞熙、「新音響音声工学」、近代科学社、2006年
<参考文献3>鶴岡信治 ほか、“加重方向指数ヒストグラム法による手書き漢字・ひらがな認識” 信学論(D)、J70-D(7)、pp.1390-1397、1987
認識部4は、認識辞書10を用いて、特徴抽出部3により生成された特徴ベクトルの集合を評価し、信号入力部1に入力された信号が属するクラスまたはクラスの集合を表す認識結果を出力する。
認識辞書10は、本実施形態のパターン認識装置が信号の分類先として扱うそれぞれのクラスに対応するモデルを含むデータベースであり、本実施形態のパターン認識装置の内部または外部に保持される。認識辞書10が保持する各クラスのモデルは確率モデルであり、隠れマルコフモデルを含む任意のグラフィカルモデル(下記の参考文献4を参照)を用いることができる。
<参考文献4>C.M.ビショップ ほか、「パターン認識と機械学習」(村田昇監訳)、シュプリンガー・ジャパン、2007年
認識部4は、この認識辞書10に含まれるモデルを単独あるいは後述するように組み合わせて、特徴抽出部3により生成された特徴ベクトルの集合との最適な対応を探索する。そして、認識部4は、特徴ベクトルの集合に適合するモデルを表現するラベル、または特徴ベクトルの集合に適合するモデルの集合を表現するラベルの集合を、認識結果として出力する。
図3および図4は、認識辞書10に含まれるモデルMの概念図である。図3は、「水」という文字画像が分類されるべきクラスに対応するモデルMの例であり、図4は、「トウキョウト」の音声信号が分類されるべきクラスに対応するモデルMの例である。
本実施形態で扱うモデルMは、図3および図4に示すように、そのモデルMに対応するクラスに分類されるべき信号が分割部2によって複数の要素に分割される際に取り得る分割パターンのそれぞれをサブモデルmとし、これらサブモデルmのすべてを結合したものである。それぞれのサブモデルmが選択される確率は、予め用意した学習データにおいて、対応する分割パターンそれぞれの出現率と一致させる。あるいは、モデルMおよびサブモデルmが選択される確率について一様分布などの事前分布を与え、これに基づいてモデルMおよびサブモデルmが選択される確率をMAP推定(参考文献4を参照)することもできる。
各モデルMのサブモデルmは、例えば、該サブモデルmに対応する分割パターンによって分割された各要素のそれぞれに対応する状態sをノードに持つ有向グラフとして構成される。この場合、サブモデルmは、隠れマルコフモデルにおけるleft−to−rightモデルのように、状態sが一方向にしか遷移できないものとしてもよい。つまり、サブモデルmは、各状態sが線形に順序づけられ、上位の状態sから下位の状態sへの遷移が禁じられた構成であってもよい。図3および図4に示した例は、状態sが一方向にしか遷移できないサブモデルmを結合したモデルMを例示している。サブモデルmをこのように構成することで、分類されるクラスまたはクラスの集合が予め分かっている学習データを分割部2に渡したときに、サブモデルmの各状態sに対する、分割された各要素の割り当てを決定的に与えることができる。
サブモデルmのそれぞれの状態sは、特徴ベクトルと該状態sを表すラベルの関数によって表現され、例えばこの関数をガウス分布の確率密度関数として、特徴ベクトルの対数尤度を関数の出力とすることができる。このとき、分布のパラメータは、上述したように、分類されるクラスまたはクラスの集合が予め分かっている学習データを用い、例えば参考文献4に記載されているEMアルゴリズム、変分ベイズ法、勾配法などの方法で推定することができる。
ここで、以上のようなモデルMを用いた認識部4の処理の具体例を説明する。なお、以下の説明は、入力信号が複数のクラスの系列として分類される例を想定しているが、入力信号が1つのクラスに分類される場合も同様の説明が当てはまる。
入力信号から得られた特徴ベクトル列(特徴ベクトルの集合)x,・・・,xの長さn以下の個数、重複を許して、モデルMを順序付きで選択しM,・・・,Mとおく。さらに、それぞれのモデルMからサブモデルmを1つずつ選択してm,・・・,mとおき、合計の長さが特徴ベクトル列と等しくなるようにする。そして、このようにして得られたサブモデルmの状態をs,・・・,sとおき、特徴ベクトルの評価関数を下記式(1)の形で与える。
ただし、fはNグラム(下記の参考文献5を参照)の確率など、モデルMの列自体によって決まる評価関数、f (i)はサブモデルmの選択確率など、モデルMにおいてサブモデルmを選択することに伴う評価関数、f (j)は状態sの確率密度関数など、状態sに特徴ベクトルxを割り当てることに伴う評価関数である。
<参考文献5>北研二、「確率的言語モデル」(言語と計算5)、東京大学出版会、1999年
このとき、サブモデルmを、上述したように状態sが一方向にしか遷移できないものとして構成した場合、これを最大化するM,・・・,Mおよびm,・・・,mは、非特許文献2に示されるように、Viterbiのアルゴリズムによって効率的に計算することができる。そして、これを最大化するM,・・・,Mを認識結果として出力する。
次に、本実施形態のパターン認識装置による処理の概要について、図5に沿って説明する。図5は、本実施形態のパターン認識装置による処理手順の一例を示すフローチャートである。
まず、信号入力部1が、認識対象となる信号の入力を受け付ける(ステップS101)。信号入力部1に入力された信号は、分割部2に渡される。
次に、分割部2が、ステップS101で入力された信号を信号入力部1から受け取り、この信号を複数の要素に分割する(ステップS102)。分割部2により分割された各要素のそれぞれは、特徴抽出部3に渡される。
次に、特徴抽出部3が、ステップS102で分割された各要素を分割部2から受け取り、これらの各要素について、上述した方法によって特徴ベクトルを求めて、特徴ベクトルの集合を生成する(ステップS103)。特徴抽出部3により生成された特徴ベクトルの集合は、認識部4に渡される。
次に、認識部4が、ステップS103で生成された特徴ベクトルの集合を特徴抽出部3から受け取り、認識辞書10を用いて特徴ベクトルの集合を評価して、ステップS101で入力された信号が属するクラスまたはクラスの集合を表す認識結果を出力する(ステップS104)。
以上、具体的な例を挙げながら説明したように、本実施形態では、信号の分類先となるそれぞれのクラスに対応するモデルMとして、そのモデルMに分類されるべき信号の様々な分割パターンに対応するサブモデルmを結合した確率モデルを定義する。そして、このようなクラスごとのモデルMを含む認識辞書10を用いて、入力された信号から得られる特徴ベクトルの集合を評価し、入力された信号が属するクラスまたはクラスの集合を表す認識結果を出力する。したがって、本実施形態のパターン認識装置によれば、従来の解析的方法と全体的方法のそれぞれの欠点を解消し、認識単位の区切りが明らかでない入力信号に対し、少ない計算量で高精度な認識を行うことができる。
従来の解析的方法では、図6に示すように、入力された信号を複数の要素に分割した後に、認識対象となる単位(図6の例では文字)に結合してパターンマッチングなどによる認識を行うが、要素の結合は、例えば文字の平均的な大きさを想定して区切りを決めるなど、ヒューリスティックな方法で行っている。このため、図6の例では、例えばAの要素とBの要素、Cの要素とDの要素をそれぞれ1つの認識対象として処理を行ってしまう場合があり、この場合は認識の精度が十分に確保できない。これに対して本実施形態のパターン認識装置では、信号の分類先として扱うそれぞれのクラスに対応した確率モデルであるモデルMを用い、入力された信号から得られる特徴ベクトルの集合に適合するモデルMあるいはその集合を探索して、入力された信号が属するクラスまたはクラスの集合を表す認識結果を出力するので、認識単位の区切りが明らかでない入力信号に対して、精度のよい認識を行うことができる。
また、従来の全体的方法では、隠れマルコフモデルなどの確率モデルを用いて入力信号のパターン認識を行うが、様々な分割箇所の可能性を考えながら処理を行うため計算量が大きく、高いスペックのハードウェア資源が要求される。これに対して本実施形態のパターン認識装置では、クラスごとに予め想定される分割パターンに対応するサブモデルmを結合したモデルMを用いて、入力された信号から得られる特徴ベクトルの集合に適合するモデルMあるいはその集合を探索し、入力された信号が属するクラスまたはクラスの集合を表す認識結果を出力するので、少ない計算量で認識を行うことができる。
以上のように、本実施形態のパターン認識装置によれば、従来の解析的方法と全体的方法のそれぞれの欠点を解消し、認識単位の区切りが明らかでない入力信号に対し、少ない計算量で高精度な認識を行うことができる。
なお、本実施形態で用いる認識辞書10は、信号の分類先となるいずれのクラスにも対応しないリジェクトモデルを含んでいてもよい。このリジェクトモデルとしては、例えば、他のモデルMの一部のサブモデルmのみを抽出して1つのモデルとしたものや、ランダムにパラメータ値を定めたものを連結したモデルを用いることができる。この場合、認識部4は、例えば上記の式(1)中のM,・・・Mの中にリジェクトモデルが含まれた場合、これをリジェクトとして扱い、認識結果が得られないことを示す情報を出力する。これにより、誤った記載の手書き文字の画像が入力された場合など、入力された信号自体が正しくない場合に、その旨をユーザに伝えることができる。
また、入力信号に含まれるノイズが誤って1つの要素として扱われることを想定し、以上のようなリジェクトモデルの1つとして、ただ1つの状態からなるただ1つのサブモデルを有するモデル(ノイズモデル)を設け、このノイズモデル中のただ1つの状態に対応する評価関数は値0を返すか、ランダムにパラメータ値を定めたものとしてもよい。
また、認識辞書10に含まれるモデルMのうちの少なくとも1つは、図7に示すように、このモデルMに対応するクラスに分類されるべき信号に含まれる要素のいずれにも対応しない状態であるノイズ状態s’を有するように構成してもよい。モデルMをこのように構成することで、入力信号に含まれるノイズが誤って1つの要素として扱われても、その要素をノイズとして正しく認識して、ノイズの混入による認識精度の低下を有効に抑制することができる。
また、以上の説明は、主に、入力された信号を要素に分割する際の分割の方向が一方向である場合を想定したが、分割の方向が一方向でない場合であっても、その分割パターンを予め定めておけば同様の処理が可能である。例えば、韓国語文字などは、二次元の分割パターンで要素に分割することが望ましく、本実施形態のパターン認識装置は、このような韓国語文字の認識にも有効に適用できる。
図8は、韓国語文字を要素に分割する処理の概念図である。認識対象となる信号として韓国語の文字列の画像が入力された場合は、例えば、図8(a)に示すように、まず縦方向の射影により文字列の画像を文字単位に分割する。そして、各文字について連結成分分析を行い、連結成分のうち隣接するものの組を一つ選んでそれらを縦方向に統合する操作を、図8(b)のように予め定められた分割パターンのいずれかに一致するまで繰り返す。そして、以上の操作により得られた要素のそれぞれについて、分割パターンごとに予め定められた各要素の記号を位置情報として与える。
図8(a)に示す韓国語文字列のうち最も左の文字は、図9に示すように、図8(b)の分割パターンのうちの0、2、4で示される分割パターンで分割される可能性がある。そこで、この文字が分類されるべきクラスに対応するモデルMは、この図9に示した分割パターンのそれぞれに対応するサブモデルmを結合したものとする。これにより、上述した方法と同様の方法によって、高精度のパターン認識を行うことができる。
本実施形態のパターン認識装置は、例えば図10に示すように、CPU(Central Processing Unit)101などのプロセッサ、ROM(Read Only Memory)102やRAM(Random Access Memory)103などの記憶装置、HDD(Hard Disk Drive)104などの補助記憶装置、ネットワークに接続して通信を行う通信I/F105、各部を接続するバス106などを備えた、通常のコンピュータを利用したハードウェア構成を採用することができる。この場合、上述した各機能的な構成要素は、コンピュータ上で所定のパターン認識プログラムを実行することによって実現することができる。
このパターン認識プログラムは、インストール可能な形式または実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disc)等のコンピュータで読み取り可能な記録媒体に記録されてコンピュータプログラムプロダクトとして提供される。
また、このパターン認識プログラムを、インターネットなどのネットワークに接続された他のコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、このパターン認識プログラムをインターネットなどのネットワーク経由で提供または配布するように構成してもよい。
また、このパターン認識プログラムを、ROM102等に予め組み込んで提供するように構成してもよい。
このパターン認識プログラムは、本実施形態のパターン認識装置の各処理部(信号入力部1、分割部2、特徴抽出部3、および認識部4)を含むモジュール構成となっており、実際のハードウェアとしては、例えば、CPU101(プロセッサ)が上記記録媒体からプログラムを読み出して実行することにより、上述した各処理部がRAM103(主記憶)上にロードされ、上述した各処理部がRAM103(主記憶)上に生成されるようになっている。なお、本実施形態のパターン認識装置は、上述した各処理部の一部または全部を、ASIC(Application Specific Integrated Circuit)やFPGA(Field-Programmable Gate Array)などの専用のハードウェアを用いて実現することも可能である。
以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。
1 信号入力部
2 分割部
3 特徴抽出部
4 認識部
10 認識辞書
M モデル
m サブモデル
s 状態

Claims (7)

  1. 入力された信号を複数の要素に分割する分割部と、
    分割された各要素のそれぞれを同一次元数の特徴ベクトルに変換して特徴ベクトルの集合を生成する特徴抽出部と、
    認識辞書を用いて前記特徴ベクトルの集合を評価し、入力された信号が属するクラスまたはクラスの集合を表す認識結果を出力する認識部と、を備え、
    前記認識辞書は、それぞれのクラスに対応するモデルを含み、
    前記モデルは、該モデルに対応するクラスに分類されるべき信号が複数の要素に分割される際に取り得る分割パターンのそれぞれに対応するサブモデルを有し、
    前記サブモデルは、該サブモデルに対応する分割パターンによって分割された各要素のそれぞれに対応する状態であって、前記特徴ベクトルと該状態を表すラベルの関数によって表現される状態を有し、
    前記認識部は、前記特徴ベクトルの集合に適合する前記サブモデルを有するモデルを表現するラベル、または、前記特徴ベクトルの集合に適合する前記サブモデルを有するモデルの集合を表現するラベルの集合を、前記認識結果として出力することを特徴とするパターン認識装置。
  2. 前記サブモデルは、各状態が線形に順序づけられ、上位の状態から下位の状態への遷移が禁じられていることを特徴とする請求項1に記載のパターン認識装置。
  3. 前記認識辞書は、いずれのクラスにも対応しないモデルであるリジェクトモデルを含み、
    前記認識部は、前記特徴ベクトルの集合が前記リジェクトモデルに適合する場合、前記認識結果が得られないことを示す情報を出力することを特徴とする請求項1または2に記載のパターン認識装置。
  4. 前記認識辞書に含まれる前記モデルのうち少なくとも1つは、該モデルに対応するクラスに分類されるべき信号に含まれる要素のいずれにも対応しない状態であるノイズ状態をさらに有することを特徴とする請求項1〜3のいずれか一項に記載のパターン認識装置。
  5. 前記サブモデルが有する状態は、学習データとなる信号を前記パターン認識装置に入力したときに該状態への入力となる前記特徴ベクトルの集合および入力される確率によって、該状態が保持する関数が決定されることを特徴とする請求項1〜4のいずれか一項に記載のパターン認識装置。
  6. パターン認識装置において実行されるパターン認識方法であって、
    前記パターン認識装置が、入力された信号を複数の要素に分割する分割ステップと、
    前記パターン認識装置が、分割された各要素のそれぞれを同一次元数の特徴ベクトルに変換して特徴ベクトルの集合を生成する特徴抽出ステップと、
    前記パターン認識装置が、認識辞書を用いて前記特徴ベクトルの集合を評価し、入力された信号が属するクラスまたはクラスの集合を表す認識結果を出力する認識ステップと、を含み、
    前記認識辞書は、それぞれのクラスに対応するモデルを含み、
    前記モデルは、該モデルに対応するクラスに分類されるべき信号が複数の要素に分割される際に取り得る分割パターンのそれぞれに対応するサブモデルを有し、
    前記サブモデルは、該サブモデルに対応する分割パターンによって分割された各要素のそれぞれに対応する状態であって、前記特徴ベクトルと該状態を表すラベルの関数によって表現される状態を有し、
    前記認識ステップでは、前記特徴ベクトルの集合に適合する前記サブモデルを有するモデルを表現するラベル、または、前記特徴ベクトルの集合に適合する前記サブモデルを有するモデルの集合を表現するラベルの集合を、前記認識結果として出力することを特徴とするパターン認識方法。
  7. コンピュータに、
    入力された信号を複数の要素に分割する分割部の機能と、
    分割された各要素のそれぞれを同一次元数の特徴ベクトルに変換して特徴ベクトルの集合を生成する特徴抽出部の機能と、
    認識辞書を用いて前記特徴ベクトルの集合を評価し、入力された信号が属するクラスまたはクラスの集合を表す認識結果を出力する認識部の機能と、を実現させるプログラムであって、
    前記認識辞書は、それぞれのクラスに対応するモデルを含み、
    前記モデルは、該モデルに対応するクラスに分類されるべき信号が複数の要素に分割される際に取り得る分割パターンのそれぞれに対応するサブモデルを有し、
    前記サブモデルは、該サブモデルに対応する分割パターンによって分割された各要素のそれぞれに対応する状態であって、前記特徴ベクトルと該状態を表すラベルの関数によって表現される状態を有し、
    前記認識部は、前記特徴ベクトルの集合に適合する前記サブモデルを有するモデルを表現するラベル、または、前記特徴ベクトルの集合に適合する前記サブモデルを有するモデルの集合を表現するラベルの集合を、前記認識結果として出力することを特徴とするプログラム。
JP2014027689A 2014-02-17 2014-02-17 パターン認識装置、パターン認識方法およびプログラム Expired - Fee Related JP6235368B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014027689A JP6235368B2 (ja) 2014-02-17 2014-02-17 パターン認識装置、パターン認識方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014027689A JP6235368B2 (ja) 2014-02-17 2014-02-17 パターン認識装置、パターン認識方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2015153240A JP2015153240A (ja) 2015-08-24
JP6235368B2 true JP6235368B2 (ja) 2017-11-22

Family

ID=53895388

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014027689A Expired - Fee Related JP6235368B2 (ja) 2014-02-17 2014-02-17 パターン認識装置、パターン認識方法およびプログラム

Country Status (1)

Country Link
JP (1) JP6235368B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11188748B2 (en) 2019-09-16 2021-11-30 International Business Machines Corporation Scalable structure learning via context-free recursive document decomposition

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5884372A (ja) * 1981-11-13 1983-05-20 Oki Electric Ind Co Ltd 特定筆記者オンライン文字認識方法
JP2856409B2 (ja) * 1989-02-27 1999-02-10 株式会社東芝 文字認識装置および方法
JPH11213093A (ja) * 1998-01-23 1999-08-06 Matsushita Electric Ind Co Ltd パターン認識装置及び方法並びにパターン認識プログラムと辞書を記録した記録媒体
JP4834693B2 (ja) * 2008-05-26 2011-12-14 株式会社東芝 パターン認識パラメータ学習装置、パターン認識装置、パターン認識パラメータ学習方法
JP5496945B2 (ja) * 2011-05-19 2014-05-21 日本電信電話株式会社 話者分類装置、話者分類方法、プログラム

Also Published As

Publication number Publication date
JP2015153240A (ja) 2015-08-24

Similar Documents

Publication Publication Date Title
US10373028B2 (en) Pattern recognition device, pattern recognition method, and computer program product
US8340429B2 (en) Searching document images
US20180260735A1 (en) Training a hidden markov model
US9595261B2 (en) Pattern recognition device, pattern recognition method, and computer program product
JP6618884B2 (ja) 認識装置、認識方法およびプログラム
US10803858B2 (en) Speech recognition apparatus, speech recognition method, and computer program product
JP6611346B2 (ja) 文字列認識装置、方法、及びプログラム
JP2013206187A (ja) 情報変換装置、情報検索装置、情報変換方法、情報検索方法、情報変換プログラム、情報検索プログラム
KR20140066640A (ko) 다국어 음향 모델 구축 장치 및 이의 다국어 음향 모델 구축 방법, 그리고 그 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능 매체
JP6558863B2 (ja) モデル作成装置、推定装置、方法、及びプログラム
CN108496185B (zh) 用于对象检测的系统和方法
WO2014118978A1 (ja) 学習方法、情報処理装置および学習プログラム
US9594952B2 (en) Computer-readable recording medium, method, and apparatus for character recognition
US9330662B2 (en) Pattern classifier device, pattern classifying method, computer program product, learning device, and learning method
JP4985724B2 (ja) 単語認識プログラム、単語認識方法、単語認識装置
US20180012108A1 (en) Pattern recognition device, pattern recognition method, and computer program product
KR20200063067A (ko) 자가 증식된 비윤리 텍스트의 유효성 검증 장치 및 방법
JP6577900B2 (ja) 音素誤り獲得装置、音素誤り獲得方法、およびプログラム
JP6235368B2 (ja) パターン認識装置、パターン認識方法およびプログラム
JP7031686B2 (ja) 画像認識システム、方法およびプログラム、並びにパラメータ学習システム、方法およびプログラム
JP6004014B2 (ja) 学習方法、情報変換装置および学習プログラム
JP6313062B2 (ja) パターン認識装置、パターン認識方法およびプログラム
CN112990252B (zh) 信息处理装置、信息处理方法以及存储介质
JP2006139659A (ja) 単語認識装置、単語認識方法、単語認識プログラム
JP6725185B2 (ja) 音響信号分離装置および音響信号分離方法

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20151102

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160923

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170817

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170926

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171026

R150 Certificate of patent or registration of utility model

Ref document number: 6235368

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees