JP6514305B1 - 認識辞書メンテナンス装置、パターン認識システム、認識辞書メンテナンス方法およびプログラム - Google Patents

認識辞書メンテナンス装置、パターン認識システム、認識辞書メンテナンス方法およびプログラム Download PDF

Info

Publication number
JP6514305B1
JP6514305B1 JP2017228245A JP2017228245A JP6514305B1 JP 6514305 B1 JP6514305 B1 JP 6514305B1 JP 2017228245 A JP2017228245 A JP 2017228245A JP 2017228245 A JP2017228245 A JP 2017228245A JP 6514305 B1 JP6514305 B1 JP 6514305B1
Authority
JP
Japan
Prior art keywords
data
recognition dictionary
evaluation
recognition
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017228245A
Other languages
English (en)
Other versions
JP2019101496A (ja
Inventor
遼平 田中
遼平 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Digital Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Digital Solutions Corp filed Critical Toshiba Corp
Priority to JP2017228245A priority Critical patent/JP6514305B1/ja
Priority to CN201810800311.4A priority patent/CN109840540A/zh
Priority to US16/125,042 priority patent/US11526696B2/en
Application granted granted Critical
Publication of JP6514305B1 publication Critical patent/JP6514305B1/ja
Publication of JP2019101496A publication Critical patent/JP2019101496A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/40Software arrangements specially adapted for pattern recognition, e.g. user interfaces or toolboxes therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1916Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】既存の認識辞書を新規の認識辞書で更新すべきか否かをより適切に判定することができる認識辞書メンテナンス装置、パターン認識システム、認識辞書メンテナンス方法およびプログラムを提供する。【解決手段】実施形態の認識辞書メンテナンス装置は、生成部と、評価部と、更新判定部と、を備える。生成部は、学習用データを用いて新規の認識辞書を生成する。評価部は、複数のグループに分類された評価用データのうち、第1グループの評価用データを用いて前記新規の認識辞書の性能を評価して第1性能評価値を算出し、第2グループの評価用データを用いて前記新規の認識辞書の性能を評価して第2性能評価値を算出する。更新判定部は、前記第1性能評価値と前記第2性能評価値とに基づいて、既存の認識辞書を前記新規の認識辞書で更新すべきか否かを判定する。【選択図】図4

Description

本発明の実施形態は、認識辞書メンテナンス装置、パターン認識システム、認識辞書メンテナンス方法およびプログラムに関する。
画像認識システムや音声認識システムに代表されるパターン認識システムは、画像や音声などの認識対象データを入力とし、認識辞書を用いて認識対象データのラベルを推定し、推定したラベルを認識結果として出力する。認識システムの認識辞書を新たに生成した認識辞書で更新する場合、一般的には、多数の評価用データ(評価用データセット)を用いて新規の認識辞書の性能を評価し、既存の認識辞書よりも高い性能評価値が得られた場合に、既存の認識辞書を新規の認識辞書で更新するようにしている。
しかし、単純な性能評価値の比較では、認識辞書の更新の妥当性を適切に判断できない場合がある。例えば、特定タイプのデータについては精度良く認識して欲しいというユーザの要望があった場合、認識辞書の更新によって特定タイプのデータに対する認識率が低下することは望ましくない。しかし、新規の認識辞書に対して得られた性能評価値が既存の認識辞書よりも高くなっていたとしても、特定タイプのデータに対する認識率は低下している場合もあり得る。このような場合、従来技術では既存の認識辞書を新規の認識辞書で更新してしまい、ユーザの要望に応えられなくなる。
特公平6−32087号公報 特許第2843167号公報
本発明が解決しようとする課題は、既存の認識辞書を新規の認識辞書で更新すべきか否かをより適切に判定することができる認識辞書メンテナンス装置、パターン認識システム、認識辞書メンテナンス方法およびプログラムを提供することである。
実施形態の認識辞書メンテナンス装置は、認識対象データのラベル推定に用いる認識辞書のメンテナンスを行うものであり、生成部と、評価部と、更新判定部と、を備える。生成部は、学習用データを用いて新規の認識辞書を生成する。評価部は、複数のグループに分類された評価用データのうち、第1グループの評価用データを用いて前記新規の認識辞書の性能を評価して第1性能評価値を算出し、第2グループの評価用データを用いて前記新規の認識辞書の性能を評価して第2性能評価値を算出する。更新判定部は、前記第1性能評価値と前記第2性能評価値とに基づいて、既存の認識辞書を前記新規の認識辞書で更新すべきか否かを判定する。
図1は、従来の辞書更新判定の方法を説明する図である。 図2は、従来の方法の問題点を説明する図である。 図3は、実施形態の概要を説明する図である。 図4は、第1実施形態に係るパターン認識システムの機能的な構成例を示すブロック図である。 図5は、認識辞書の初期化の手順を示すフローチャートである。 図6は、パターン認識の手順を示すフローチャートである。 図7は、認識辞書のメンテナンスの手順を示すフローチャートである。 図8は、第2実施形態に係るパターン認識システムの機能的な構成例を示すブロック図である。 図9は、編集部の詳細を示すブロック図である。 図10は、評価用データの編集の手順を示すフローチャートである。 図11は、第3実施形態に係るパターン認識システムの機能的な構成例を示すブロック図である。 図12は、ラベル付与部の詳細を示すブロック図である。 図13は、ラベル付与の手順を示すフローチャートである。 図14は、第4実施形態に係るパターン認識システムの機能的な構成例を示すブロック図である。 図15は、第4実施形態における認識辞書の初期化の手順を示すフローチャートである。 図16は、第8実施形態に係るパターン認識システムの機能的な構成例を示すブロック図である。 図17は、第9実施形態における認識辞書の初期化の手順を示すフローチャートである。 図18は、第9実施形態における認識辞書のメンテナンスの手順を示すフローチャートである。 図19は、パターン認識システムのハードウェア構成例を示すブロック図である。 図20は、端末とサーバを含むパターン認識システムの構成例を示すブロック図である。
以下、実施形態の認識辞書メンテナンス装置、パターン認識システム、認識辞書メンテナンス方法およびプログラムについて、図面を参照して詳細に説明する。
<実施形態の概要>
本実施形態は、認識辞書のメンテナンスに関する。認識辞書は、パターン認識システムにおいて認識対象データのラベルを推定するために使用される情報であり、多数の学習用データ(学習用データセット)を用いた統計的な学習により生成される。認識辞書の形式は、認識アルゴリズムによって異なる。認識辞書は、モデル、識別器などと呼ばれる場合もある。
認識対象データは、認識対象としてパターン認識システムに入力されるデータである。例えば、画像認識システムに入力される認識対象データは画像データであり、音声認識システムに入力される認識対象データは音声データである。ラベルは、パターン認識システムにおいて認識辞書を用いて推定され、出力されるデータである。例えば、文字認識を目的とした画像認識システムが出力するラベルは文字コードであり、顔認識を目的とした画像認識システムが出力するラベルは人物IDなどである。
認識辞書の学習(生成)に用いられる学習用データとしては、主に、正解ラベルが付与された教師ありデータが用いられるが、正解ラベルが付与されない教師なしデータも学習用データに含め、半教師あり学習により認識辞書を学習(生成)することもできる。
認識辞書のメンテナンスとは、学習用データセットを用いて新規の認識辞書(以下、「新辞書」と呼ぶ)を生成し、必要に応じて、既存の認識辞書(以下、「現辞書」と呼ぶ)を新辞書で更新する一連の処理である。学習用データセットは、パターン認識システムによりラベルが推定された認識対象データを学習用データとして追加することで拡張することができる。現辞書を新辞書で更新すべきか否かを判定するために、多数の評価用データ(評価用データセット)を用いて新辞書の性能を評価する。評価用データは、正解ラベルが付与された教師ありデータである。評価用データは、バリデーションデータと呼ばれることもある。
評価用データは、教師ありデータを集めたデータ集合から選択して使用することができる。そして、このデータ集合の残りと、パターン認識システムによりラベルが推定された認識対象データとを学習用データとして使用することができる。なお、パターン認識システムによりラベルが推定された認識対象データに対し、ユーザの教示操作に応じて正解ラベルが付与された場合は、これを評価用データとして用いることもできる。
図1は、従来の辞書更新判定の方法を説明する図である。従来は、評価用データセットを用いて新辞書の性能を評価して、現辞書よりも高い性能評価値(ここでは評価用データセットに対する認識率)が得られれば、現辞書を新辞書で更新するようにしている。図1の例では、新辞書Aの評価用データセットに対する認識率が95%であり、現辞書の評価用データセットに対する認識率90%よりも高くなっているので、現辞書が新辞書Aで更新される。一方、新辞書Bのように、評価用データセットに対する認識率が現辞書よりも低下している場合(図1の例では新辞書Bの認識率が85%であり、現辞書の認識率90%より低下している)は、認識辞書の更新は行わない。
しかし、このような従来の方法では、特定タイプのデータに対する性能を保証できないという問題がある。すなわち、新辞書の評価用データセットに対する認識率が現辞書よりも高いとしても、特定タイプのデータに対する認識率が低下していない保証はなく、認識辞書の更新によって、特定タイプのデータが精度良く認識できなくなってしまう場合もある。特に、ラベルが推定された認識対象データを学習用データとして追加して学習用データセットを拡張するシステムの場合、学習用データのラベルが正解でない場合もあり、新辞書の性能が低下するリスクが高い。
図2は、従来の方法の問題点を説明する図である。例えば、画像認識においては、対象がぼやけた画像や対象の一部が欠損している画像のように認識の難しい画像よりも、対象が鮮明に映る画像を正しく認識できることが実用上重要とされることが多い。しかし、従来の方法では、実用上重要な画像の認識率が低下していても、全体として認識精度が向上していれば性能は向上していると判断されてしまう。例えば図2の例では、評価用データセットに含まれる画像Im1は比較的文字が鮮明に映っているため、実用上重要な画像である。一方、画像Im2,Im3は、認識が比較的難しい画像である。ここで、現辞書は、画像Im1を正しく認識できたが、画像Im2,Im3は正しく認識できなかったとする。一方、新辞書Aは、画像Im2,Im3は正しく認識できたが、画像Im1を正しく認識できなかったとする。この場合、新辞書Aは実用上重要な画像Im1を認識できないにも関わらず、評価用データセット全体に対する認識率が現辞書よりも高くなる場合もあり、現辞書が新辞書Aで更新されることにより、実用上重要な画像の認識率が低下する懸念がある。また、上述したように、特定タイプのデータを精度良く認識して欲しいというユーザの要望がある場合も、同様の問題が生じる。
そこで、本実施形態では、評価用データセットに含まれる評価用データを複数のグループに分類し、第1グループの評価用データを用いて新辞書の性能を評価して第1性能評価値を算出するとともに、第2グループの評価用データを用いて新辞書の性能を評価して第2性能評価値を算出する。そして、第1性能評価値と第2性能評価値とに基づいて、現辞書を新辞書で更新すべきか否かを判定する。例えば、第1グループの評価用データを特定タイプのデータとし、第2グループの評価用データをそれ以外のデータとする。そして、新辞書の第1性能評価値が第1閾値以上であり、かつ、新辞書の第2性能評価値が第2閾値以上である場合に、現辞書を新辞書で更新すべきと判定する。
図3は、図1および図2に例示した事例に即して、本実施形態の概要を説明する図である。本実施形態では、評価用データセットに含まれる評価用データを、例えば、実用上重要なデータ、あるいは、ユーザから精度良い認識が要望されるデータなどの特定タイプのデータの第1グループと、それ以外のデータの第2グループとに分類する。例えば図2に示した画像Im1は第1グループ、図2に示した画像Im2,Im3は第2グループに分類される。そして、新辞書の性能評価は、第1グループの評価用データを用いた新辞書の性能評価と、第2グループの評価用データを用いた新辞書の性能評価とを個別に行い、第1性能評価値(ここでは第1グループの評価用データに対する認識率)が第1閾値以上、かつ、第2性能評価値(ここでは第2グループの評価用データに対する認識率)が第2閾値以上の場合、現辞書を新辞書で更新すべきと判定する。ここで、第1閾値としては、例えば予め定めた固定閾値(例えば認識率100%)を用いる。また、第2閾値としては、例えば、現辞書について算出された第2性能評価値を用いる。
図3の例では、新辞書Aは、第2性能評価値(第2グループの評価用データに対する認識率)が第2閾値(現辞書の第2グループの評価用データに対する認識率)以上となっているが、第1性能評価値(第1グループの評価用データに対する認識率)が第1閾値(100%)未満となっている。したがって、現辞書を新辞書Aで更新すべきではないと判定される。また、新辞書Bは、第1性能評価値が第1閾値以上となっているが、第2性能評価値が第2閾値未満となっている。したがって、現辞書を新辞書Aで更新すべきではないと判定される。一方、新辞書Cは、第1性能評価値が第1閾値以上であり、かつ、第2性能評価値が第2閾値以上となっている。したがって、現辞書を新辞書Cで更新すべきと判定される。
本実施形態では、以上の仕組みにより、認識辞書の更新によって特定タイプのデータに対する認識性能を低下させることなく全体としての認識性能が向上するように、現辞書を新辞書で更新すべきか否かを適切に判定することができる。これにより、特定タイプのデータに対する性能保証を可能とする最適な認識辞書のメンテナンスを実現することができる。以下では、本実施形態を適用したパターン認識システムの具体例について詳細に説明する。なお、以下の説明において、同様の機能を持つ構成要素については同一の符号を付して、重複した説明を適宜省略する。
<第1実施形態>
図4は、第1実施形態に係るパターン認識システムの機能的な構成例を示すブロック図である。本実施形態のパターン認識システムは、図4に示すように、認識部10と、記憶部20と、メンテナンス部30とを備える。メンテナンス部30は、認識辞書メンテナンス装置に相当する。
認識部10は、記憶部20が記憶する現辞書を用いて、パターン認識システムに入力された認識対象データのラベルを推定する。認識部10により推定されたラベルは、認識結果としてパターン認識システムから出力される。
記憶部20は、現辞書を記憶する辞書記憶部21と、学習用データセットおよび評価用データセットを記憶するデータ記憶部22とを含む。学習用データセットは、上述のように、認識辞書を生成するために用いられる学習用データの集合であり、正解ラベルが付与された教師ありデータだけでなく、正解ラベルが付与されていない教師なしデータが含まれていてもよい。評価用データセットは、上述のように、認識辞書の性能を評価するために用いられる評価用データの集合である。評価用データセットに含まれる評価用データは、複数のグループに分類されている。
学習用データと評価用データは形式が同等のデータである。したがって、このような形式のデータ集合の一部を選択して評価用データセットとし、残りを学習用データセットとすることができる。ただし、認識辞書の性能を正しく評価するために、評価用データは教師ありデータである必要がある。なお、辞書記憶部21とデータ記憶部22は物理的に単一の記憶装置を用いて実現してもよいし、複数の記憶装置を用いて実現してもよい。つまり、記憶部20は、1つ以上の記憶装置を用いて構成される。
メンテナンス部30は、認識辞書のメンテナンスを行う機能であり、生成部31と、評価部32と、更新判定部33と、更新部34とを備える。
生成部31は、データ記憶部22が記憶する学習用データを用いて、新辞書を生成する。なお、認識辞書の初期化を行う場合は、生成部31は、初期辞書を生成する。初期辞書は、パターン認識システムの構築時に辞書記憶部21に最初に保存される認識辞書である。目的の変化に応じてパターン認識システムをリニューアルする際に初期化を行い、初期辞書を生成して辞書記憶部21に新たに保存してもよい。
評価部32は、データ記憶部22が記憶する評価用データを用いて、生成部31により生成された新辞書の性能を評価する。特にこの評価部32は、複数のグループに分類された評価用データのうち、第1グループの評価用データを用いて新辞書の性能を評価して第1性能評価値を算出し、第2グループの評価用データを用いて新辞書の性能を評価して第2性能評価値を算出する。第1性能評価値は、第1グループの評価用データに対する認識率であってもよいし、例えば、第1グループ内の特定の評価用データに重み付けして計算される値など、第1グループの評価用データに対する認識性能を表す他の値であってもよい。同様に、第2性能評価値は、第2グループの評価用データに対する認識率であってもよいし、例えば、第2グループ内の特定の評価用データに重み付けして計算される値など、第2グループの評価用データに対する認識性能を表す他の値であってもよい。なお、認識辞書の初期化を行う場合は、評価部32は、初期辞書の性能を新辞書と同様に評価して、初期辞書の第1性能評価値と第2性能評価値とを算出する。
更新判定部33は、新辞書の第1性能評価値と第2性能評価値とに基づいて、現辞書を新辞書で更新すべきか否かを判定する。例えば、更新判定部33は、新辞書の第1性能評価値が第1閾値以上であり、かつ、新辞書の第2性能評価値が第2閾値以上である場合に、現辞書を新辞書で更新すべきと判定する。第1閾値は、例えば、事前に固定閾値として設定される。第1閾値をユーザの入力操作に応じて変更可能な構成としてもよい。第2閾値は、例えば、現辞書の第2性能評価値であり、現辞書の作成時に算出されて保存される。この第2閾値は、認識辞書の更新に伴って変化する相対閾値である。
更新部34は、更新判定部33が認識辞書を更新すべきと判定した場合に、辞書記憶部21が記憶する現辞書を新辞書で更新する。つまり、更新部34は、第1性能評価値が第1閾値以上であり、かつ、第2性能評価値が第2閾値以上である場合に、現辞書を新辞書で更新する。なお、更新部34は、このように更新判定部33の判定結果に応じて認識辞書の更新を自動で行うものに限らず、ユーザの更新指示に応じて認識辞書の更新を行う構成としてもよい。すなわち、更新部34は、更新判定部33が認識辞書を更新すべきと判定した場合に、現辞書を新辞書で更新するか否かをユーザに問い合わせ、ユーザから更新指示を受け付けた場合に、現辞書を新辞書で更新する構成であってもよい。
次に、本実施形態に係るパターン認識システムの動作について、認識辞書の初期化、認識辞書を用いたパターン認識、認識辞書のメンテナンスの順に、それぞれの処理の具体例を説明する。
まず、認識辞書の初期化について説明する。本実施形態では、認識辞書の初期化を行う前の事前準備として、評価用データの選択や分類、第1閾値の設定などが行われるものとする。すなわち、パターン認識システムの構築前に、多数の教師ありデータが用意される。そして、これら教師ありデータのデータ集合が、例えば所定の比率のランダム分割により評価用データと学習用データとに分割されて、データ記憶部22に保存される。このとき評価用データが複数のグループに分類されてデータ記憶部22に保存されるとともに、第1閾値が設定される。評価用データの分類および第1閾値の設定は、例えば管理者の判断に基づいて行われる。
図5は、認識辞書の初期化の手順を示すフローチャートである。認識辞書の初期化が開始されると、まず、生成部31が、学習用データセットを用いて、所定の方法で初期辞書を生成する(ステップS101)。所定の方法とは、パターン認識システムの認識方式に応じた方法であり、例えば、サポートベクトルマシン、ニューラルネットワーク、部分空間法などである。
次に、評価部32が、評価用データセットのうち第1グループの評価用データを用いて初期辞書の性能を評価し、第1性能評価値を算出する(ステップS102)。そして、第1性能評価値が第1閾値以上であるか否かが判定される(ステップS103)。ここで、第1性能評価値が第1閾値未満であれば(ステップS103:No)、さらに、初期辞書の生成回数が所定回数以上であるか否かが判定される(ステップS104)。そして、初期辞書の作成回数が所定回数未満の場合は(ステップS104:No)、誤認識された評価用データを正しく認識できるようにするための性能改善対策が行われた後(ステップS105)、ステップS101に戻って初期辞書が再度生成される。ここで、性能改善対策とは、例えば、誤認識された評価用データのコピー、あるいは、誤認識された評価用データに変形を加えたものを学習用データセットに追加したり、学習用データセットの中で、誤認識された評価用データに最も類似した学習用データの重みを上げたりといった処理である。
一方、初期辞書の生成回数が所定回数以上の場合(ステップS104:Yes)、すなわち、初期辞書の生成を所定回数繰り返しても第1性能評価値が第1閾値以上にならない場合は、第1グループの評価用データを正しく認識できる初期辞書が作成できないことを示す警告を出力し(ステップS106)、初期化の処理を終了する。この場合、例えば管理者により評価用データの分類や第1閾値が見直され、誤認識された評価用データを第1グループから第2グループに移動したり、第1閾値を下げたりといった操作が行われた後に、認識辞書の初期化が再度行われる。
初期辞書に対して算出した第1性能評価値が第1閾値以上である場合は(ステップS103:Yes)、評価部32は、次に、評価用データセットのうち第2グループの評価用データを用いて初期辞書の性能を評価し、第2性能評価値を算出する(ステップS107)。そして、評価部32により算出された第2性能評価値が第2閾値として保存されるとともに(ステップS108)、初期辞書が現辞書として辞書記憶部21に保存され(ステップS109)、初期化の処理が終了する。
次に、認識辞書を用いたパターン認識について説明する。図6は、認識辞書を用いたパターン認識の手順を示すフローチャートである。この図6に示す一連の処理は、パターン認識システムに認識対象データが入力されるたびに繰り返し実施される。
パターン認識システムにより認識対象データの入力が受け付けられると(ステップS201)、認識部10が、辞書記憶部21に保存された現辞書を用いて、入力された認識対象データのラベルを推定する(ステップS202)。そして、認識部10により推定された認識対象データのラベルが、パターン認識システムから認識結果として出力される(ステップS203)。また、認識部10によりラベルが推定された認識対象データが学習用データとしてデータ記憶部22に保存される(ステップS204)。
次に、認識辞書のメンテナンスについて説明する。図7は、認識辞書のメンテナンスの手順を示すフローチャートである。この図7に示す一連の処理は、例えば1日に1回など、所定のタイミングで実施される。
認識辞書のメンテナンスが開始されると、まず、生成部31が、学習用データセットを用いて、初期辞書の作成時と同様の方法で新辞書を生成する(ステップS301)。新辞書の生成に用いる学習用データセットには、認識部10が現辞書を用いてラベルを推定した認識対象データが、学習用データとして含まれる。この学習用データは正解ラベルが不明であるが、例えば、認識部10により推定されたラベルを正解ラベルとして扱って新辞書の学習を行う。また、認識結果の確信度(推定されたラベルが正解ラベルである確信度)に応じて一部のみを学習用データとしてもよい。
次に、評価部32が、評価用データセットのうち第1グループの評価用データを用いて新辞書の性能を評価し、第1性能評価値を算出する(ステップS302)。そして、第1性能評価値が第1閾値以上であるか否かが判定される(ステップS303)。ここで、第1性能評価値が第1閾値未満であれば(ステップS303:No)、更新判定部33により現辞書を新辞書で更新すべきでないと判定される。この場合、新辞書が廃棄されて認識辞書のメンテナンスが終了する。
一方、第1性能評価値が第1閾値以上である場合は(ステップS303:Yes)、評価部32は、次に、評価用データセットのうち第2グループの評価用データを用いて新辞書の性能を評価し、第2性能評価値を算出する(ステップS304)。そして、第2性能評価値が第2閾値以上であるか否かが判定される(ステップS305)。ここで、第2性能評価値が第2閾値未満であれば(ステップS305:No)、更新判定部33により現辞書を新辞書で更新すべきでないと判定される。この場合、新辞書が廃棄されて認識辞書のメンテナンスが終了する。
一方、第2性能評価値が第2閾値以上である場合は(ステップS305:Yes)、更新判定部33により現辞書を新辞書で更新すべきと判定される。この場合、更新部34が、現辞書を新辞書で更新するとともに(ステップS306)、ステップS304で算出された第2性能評価値を第2閾値として保存し(ステップS307)、認識辞書のメンテナンスが終了する。
以上、具体的な例を挙げながら説明したように、本実施形態のパターン認識システムは、認識辞書のメンテナンスにおいて、複数のグループに分類された評価用データのうち、第1グループの評価用データを用いて新辞書を評価して第1性能評価値を算出するとともに、第2グループの評価用データを算出する。そして、第1性能評価値が第1閾値以上であり、かつ、第2性能評価値が第2閾値以上である場合に、現辞書を新辞書で更新すべきと判定し、認識辞書の更新を行うようにしている。したがって、認識辞書の更新によって特定タイプのデータに対する認識性能を低下させることなく全体としての認識性能が向上するように、現辞書を新辞書で更新すべきか否かを適切に判定することができる。
<第2実施形態>
次に、第2実施形態について説明する。本実施形態は、評価用データを編集する機能を追加したものである。図8は、第2実施形態に係るパターン認識システムの機能的な構成例を示すブロック図である。本実施形態のパターン認識システムは、図4に示した第1実施形態の構成と比較して、メンテナンス部30に編集部40が追加されている。
編集部40は、ユーザの編集操作に応じて、評価用データの追加、削除、グループ移動を行う。編集部40の詳細を図9に示す。編集部40は、図9に示すように、表示部41と、操作受付部42と、編集実行部43とを備える。
表示部41は、ユーザが編集操作を行うための各種情報を表示装置に表示させる制御を行う。操作受付部42は、ユーザの編集操作を受け付ける。編集実行部43は、操作受付部42が受け付けたユーザの編集操作に応じて、評価用データの追加、削除、グループ移動といった評価用データの編集を実行する。
図10は、評価用データの編集の手順を示すフローチャートである。評価用データの編集は、例えば、パターン認識システムに入力される認識対象データの傾向が変化した場合などに、ユーザの要求に応じて実施される。
ユーザにより評価用データの編集が要求されると編集部40が起動され、まず、表示部41の制御により、編集タイプ一覧が表示される(ステップS401)。編集タイプは、「追加」、「削除」、「移動」を含む。そして、この編集タイプ一覧からユーザが編集タイプを選択する操作を行うと(ステップS402)、その操作が操作受付部42により受け付けられて、選択された編集タイプに応じてその後の処理が分岐する。
編集タイプとして「追加」が選択された場合、ユーザの操作によって、追加する評価用データが入力される(ステップS403)。評価用データが入力されると、編集実行部43が、入力された評価用データのグループを決定し(ステップS404)、決定したグループの評価用データとして、入力された評価用データを追加する(ステップS405)。追加する評価用データのグループは、ユーザの操作に応じて決定してもよいし、評価用データのラベルなどから評価用データのタイプを判別し、自動で決定してもよい。
編集タイプとして「削除」が選択された場合、表示部41の制御により、評価用データの一覧が表示される(ステップS406)。そして、この評価用データ一覧からユーザが削除する評価用データを選択する操作を行うと(ステップS407)、その操作が操作受付部42により受け付けられ、編集実行部43が、ユーザにより選択された評価用データを削除する(ステップS408)。
編集タイプとして「移動」が選択された場合、表示部41の制御により、評価用データのグループ一覧が表示される(ステップS409)。そして、このグループ一覧からユーザが移動元グループと移動先グループを選択する操作を行うと(ステップS410)、その操作が操作受付部42により受け付けられ、表示部41の制御により、移動元グループ内の評価用データ一覧が表示される(ステップS411)。そして、この評価用データ一覧からユーザが移動する評価用データを選択する操作を行うと(ステップS412)、その操作が操作受付部42により受け付けられ、編集実行部43が、ユーザにより選択された評価用データを移動元グループから移動先グループに移動する(ステップS413)。
評価用データの編集が行われた場合、編集された評価用データを用い、図5に示した初期化と同様の手順で、辞書記憶部21が記憶する現辞書の性能を再評価することが望ましい。例えば、評価用データの編集により第1グループの評価用データが変化した場合は、図5のステップS102以降と同様の処理を行うことで、現辞書の第1性能評価値が第1閾値以上となる状態を維持する。また、評価用データの編集により第2グループの評価用データが変化した場合は、図5のステップS107およびステップS108と同様の処理を行うことで、第2閾値を更新する。
以上説明したように、本実施形態のパターン認識システムは、評価用データを編集する機能を持つことにより、上述の第1実施形態と同様に現辞書を新辞書で更新すべきか否かを適切に判定することができることに加え、例えば、パターン認識システムに入力される認識対象データの傾向が変化した場合など、認識性能を保証したいデータのタイプが変化した場合にも柔軟に対応可能となる。
<第3実施形態>
次に、第3実施形態について説明する。本実施形態は、学習データセットに含まれる教師なしデータ(ラベルが推定された認識対象データ)に対して正解ラベルを付与する機能を追加したものである。図11は、第3実施形態に係るパターン認識システムの機能的な構成例を示すブロック図である。本実施形態のパターン認識システムは、図4に示した第1実施形態の構成と比較して、メンテナンス部30にラベル付与部50が追加されている。
ラベル付与部50は、ユーザの教示操作に応じて、学習データセットに含まれる教師なしデータ(ラベルが推定された認識対象データ)に対し、正解ラベルを付与する。教示操作とは、正解ラベルをシステムに教示するための操作である。ラベル付与部50の詳細を図12に示す。ラベル付与部50は、図12に示すように、表示部51と、操作受付部52と、データ登録部53とを備える。
表示部51は、ユーザが教示操作を行うための各種情報を表示装置に表示させる制御を行う。操作受付部52は、ユーザの教示操作を受け付ける。データ登録部53は、操作受付部52が受け付けたユーザの教示操作に応じて、正解ラベルが付与された認識対象データを教師ありデータとしてデータ記憶部22に保存する。
図13は、ラベル付与の手順を示すフローチャートである。ラベル付与は、例えば、辞書記憶部21が記憶する現辞書が所定時間以上更新されない場合などに、ユーザの要求に応じて実施される。すなわち、本実施形態のパターン認識システムは、辞書記憶部21が記憶する現辞書が更新されない状態が所定時間継続すると、ユーザに対して教示操作を促す警告を出力する。ユーザは、この警告に応じてシステムに対しラベル付与の実施を要求する。
ユーザによりラベル付与が要求されるとラベル付与部50が起動され、まず、表示部51が、学習データセットに含まれる教師なしデータのうち、ラベル付与の対象となる教師なしデータを選択し(ステップS501)、選択した教師なしデータをユーザが観測できる情報を表示させる(ステップS502)。教師なしデータを選択する際は、認識結果の確信度が小さいものを選ぶことで、その後に作成する新辞書の認識精度の向上が期待される。選択した教師なしデータをユーザが観測できる情報とは、教師なしデータが画像であればその画像、教師なしデータが音声であればその音声を再生するための音声再生ボタンなどである。これらの情報を表示することで、ラベル付与の対象となる教師なしデータをユーザが観測できる。なお、ラベル付与の対象となる教師なしデータの数は、予め定めた所定の数であってもよいし、ユーザの入力に応じて決定してもよい。
次に、ラベル付与の対象となる教師なしデータを観測したユーザが、その教師なしデータの正解ラベルを入力すると、操作受付部52がその正解ラベルの入力を受け付ける(ステップS503)。そして、データ登録部53が、ラベル付与の対象となる教師なしデータに対しユーザが入力した正解ラベルを対応付けて、教師ありデータとしてデータ記憶部22に登録する(ステップS504)。
ラベル付与部50による上述の処理は、ユーザの操作に応じて終了する。このとき、ラベル付与の対象として選択された全ての教師なしデータに対する教示操作が完了している必要はない。本実施形態のパターン認識システムは、ラベル付与部50によるラベル付与の処理が終了したときに、続けて認識辞書のメンテナンスを行うようにしてもよいし、次のメンテナンスのタイミングで認識辞書のメンテナンスを行うようにしてもよい。
以上説明したように、本実施形態のパターン認識システムは、学習データセットに含まれる教師なしデータに対して正解ラベルを付与する機能を持つことにより、上述の第1実施形態と同様に現辞書を新辞書で更新すべきか否かを適切に判定することができることに加え、新辞書の性能が向上しない場合に適切な対策を行って、より性能のよい新辞書を生成することが可能となる。
<第4実施形態>
次に、第4実施形態について説明する。本実施形態は、評価用データセットを複数のグループに自動分類する機能を追加したものである。図14は、第4実施形態に係るパターン認識システムの機能的な構成例を示すブロック図である。本実施形態のパターン認識システムは、図4に示した第1実施形態の構成と比較して、メンテナンス部30に分類部60が追加されている。
分類部60は、所定の分類基準に基づいて、評価用データセットに含まれる評価用データを複数のグループに自動分類する。例えば、分類基準が認識の難易度である場合、分類部60は、評価用データのそれぞれについて所定の手法を用いて認識の難易度を表す統計量を計算し、得られた値が所定の閾値以下の評価用データを第1グループ、それ以外を第2グループに分類する。認識の難易度を表す統計量を計算する手法とは、例えば汎用辞書を用いて認識したときの確信度、クラスタリング(X-means法、Word法など)を施した際のクラスタ中心からの距離などである。
また、画像認識を行うパターン認識システムにおいて、要求されるタスクが文字認識であれば、例えば、平仮名、片仮名、漢字、数字、記号などの文字種を分類基準としてもよい。また、要求されるタスクが顔認識であれば、例えば人種を分類基準としてもよい。この場合、分類部60は、評価用データのラベルから文字種や人種などを判断して、それぞれ対応するグループに分類することができる。
本実施形態では、認識辞書の初期化を行う際に、分類部60が評価用データを複数のグループに自動分類する。図15は、第4実施形態における認識辞書の初期化の手順を示すフローチャートである。図5に示した第1実施形態における認識辞書の初期化との違いは、初期辞書の生成の前に、評価用データを自動分類する処理と第1閾値を設定する処理とが追加されている点である。
本実施形態では、認識辞書の初期化が開始されると、まず、分類部60が、管理者などによる分類の条件指定を受け付ける(ステップS601)。分類の条件は、例えば上述の分類基準や第1閾値などを含む。分類基準は、例えば、難易度による分類、文字種による分類、人種による分類などの分類基準の候補を提示し、その候補のうちのいずれかを管理者が選択できるようにしてもよい。
次に、分類部60は、ステップS601で指定された分類基準に従って、評価用データセットに含まれる評価用データを複数のグループに分類し(ステップS602)、ステップS601で指定された第1閾値を設定する(ステップS603)。その後のステップS604からステップS612の処理は、図5のステップS101からステップS109までの処理と同様であるため、説明を省略する。ただし、本実施形態では、ステップS609で警告を出力した後、ステップS601に戻って管理者などによる分類の条件指定を再度受け付ける。このとき、例えば管理者は、指定する分類基準を変更したり第1閾値を下げたりといった操作を行うことができる。
以上説明したように、本実施形態のパターン認識システムは、評価用データセットを複数のグループに自動分類する機能を持つことにより、上述の第1実施形態と同様に現辞書を新辞書で更新すべきか否かを適切に判定することができることに加え、評価用データを人手で分類する作業を不要として管理者などの負担を軽減することができる。
<第5実施形態>
次に、第5実施形態について説明する。本実施形態は、第1グループに分類される評価用データをさらに複数のサブグループに分類する例である。例えば顔認識において、人種を分類基準として評価用データを分類する場合に、アジア系人種を第1グループとし、それ以外を第2グループとする。さらに、第1グループを日本人、中国人、韓国人といったように、国別のサブグループに分ける。この場合、第1グループに分類される評価用データがさらに、国別のサブグループに分類される。
第1グループに分類される評価用データをさらに複数のサブグループに分類する場合は、第1グループのサブグループごとに第1閾値が設定される。そして、第1グループの評価用データを用いた認識辞書の性能評価がサブグループごとに行われ、サブグループごとの第1性能評価値が算出されて、サブグループごとに設定された第1閾値と比較される。そして、新辞書に対して算出されたサブグループごとの第1性能評価値がそれぞれ第1閾値以上であり、かつ、第2性能評価値が第2閾値以上である場合に、現辞書を新辞書で更新すべきと判定される。
また、第1グループに分類される評価用データだけでなく、第2グループに分類される評価用データを複数のサブグループに分類してもよい。例えば文字認識において、文字種を分類基準として評価用データを分類する場合に、平仮名を第1グループのサブグループA、数字を第1グループのサブグループB、片仮名を第2グループのサブグループA、アルファベットを第2グループのサブグループBとする例が考えられる。また、第2グループに分類される評価用データのみを複数のサブグループに分類してもよい。
第2グループに分類される評価用データをさらに複数のサブグループに分類する場合は、第2グループの評価用データを用いた認識辞書の性能評価がサブグループごとに行われ、サブグループごとの第2性能評価値が算出されて、サブグループごとの第2閾値(現辞書についてサブグループごとに算出された第2性能評価値)と比較される。そして、新辞書に対して算出された第1性能評価値が第1閾値以上(第1グループに分類される評価用データを複数のサブグループに分類する場合は、サブグループごとに算出された第1性能評価値がサブグループごとに設定された第1閾値以上)であり、かつ、サブグループごとの第2性能評価値がそれぞれ第2閾値以上である場合に、現辞書を新辞書で更新すべきと判定される。
なお、本実施形態を適用可能な分類基準は上述の例に限らない。また、1つの評価用データが複数のサブグループに分類されるようにしてもよい。評価用データの分類は、第1実施形態と同様に人手で行ってもよいし、第4実施形態と同様に自動で行うようにしてもよい。
以上説明したように、本実施形態では、第1グループに分類される評価用データや第2グループに分類される評価用データをさらに複数のサブグループに分類し、サブグループごとに第1性能評価値や第2性能評価値を算出するようにしているので、現辞書を新辞書で更新すべきか否かを判定する条件としてより自由度の高い条件を設定することができ、環境に適合しやすいシステムを設計することが可能となる。
<第6実施形態>
次に、第6実施形態について説明する。本実施形態は、評価用データを複数の分類基準ごとに複数のグループに分類する例である。例えば文字認識において、数字を精度良く認識したいというユーザの要望があったとする。この場合、文字種を第1分類基準として、数字を第1分類基準に基づく第1グループ、それ以外を第1分類基準に基づく第2グループとする。さらに、実用上の重要性を考慮して認識の難易度を第2分類基準とし、認識の難易度が低いものを第1グループ、難易度が高いものを第2グループとする。この場合、評価用データは、第1分類基準に従って第1グループと第2グループに分類されるとともに、第2分類基準に従って第1グループと第2グループに分類される。なお、本実施形態を適用可能な分類基準はこの例に限らず、組み合わせが可能なあらゆる分類基準に対し適用できる。評価用データの分類は、第1実施形態と同様に人手で行ってもよいし、第4実施形態と同様に自動で行うようにしてもよい。また、分類基準は2つに限らず、3つ以上であってもよい。また、少なくとも1つの第1グループが、第5実施形態と同様に複数のサブグループを持つ構成であってもよい。
本実施形態では、認識辞書に対する第1性能評価値の算出と第2性能評価値の算出とを複数の分類基準ごとに行う。そして、新辞書に対して複数の分類基準ごとに算出した第1性能評価値がそれぞれ第1閾値以上であり、かつ、新辞書に対して複数の分類基準ごとに算出した第2性能評価値がそれぞれ第2閾値以上である場合に、現辞書を新辞書で更新すべきと判定される。なお、第1閾値は複数の分類基準ごとに個別の値を設定してもよいし、共通の値を設定してもよい。
以上説明したように、本実施形態では、評価用データを複数の分類基準ごとに複数のグループに分類するようにしているので、現辞書を新辞書で更新すべきか否かを判定する条件としてより自由度の高い条件を設定することができ、環境に適合しやすいシステムを設計することが可能となる。
<第7実施形態>
次に、第7実施形態について説明する。本実施形態は、グループがファジィ集合の場合の例である。ファジィ集合は、あるデータがあるグループに属するか属さないかの二値で考えるのではなく、連続的な数値として帰属度により表す表現方法である。すなわち、本実施形態では、評価用データの分類に用いる複数のグループが、各グループへの帰属度によって連続的に表現される。
本実施形態では、評価用データの第1グループに対する帰属度および第2グループに対する帰属度を定義する。例えば、評価用データに対する認識の難易度を分類基準とし、認識の難易度が低いものを第1グループ、難易度が高いものを第2グループとする場合は、例えば、0以上1以下に正規化された、汎用辞書を用いて評価用データを認識したときの確信度sを第1グループに対する帰属度とし、(1−s)を第2グループに対する帰属度とすることができる。また、評価用データの優先度を分類基準とし、優先度が高いものを第1グループ、優先度が低いものを第2グループとする場合は、個々の評価用データに与えられた優先順位を示す数値が小さいほど大きな値となる0以上1以下の値pを第1グループに対する帰属度とし、(1−p)を第2グループに対する帰属度とすることができる。
本実施形態では、評価用データセットに含まれる全ての評価用データを用いて、認識辞書に対する性能評価を行う。そして、所定の方式で、第1性能評価値と第2性能評価値とを算出する。例えば、各評価用データの認識可否を示す値(例えば、認識できたときは1、認識できなかったときは0)に対して、第1グループへの帰属度を乗じた重み付け和により第1性能評価値を算出し、第2グループへの帰属度を乗じた重み付け和により第2性能評価値を算出することができる。認識辞書の更新判定の方法は第1実施形態と同様である。
以上説明したように、評価用データの分類に用いる複数のグループが、各グループへの帰属度によって連続的に表現されるファジィ集合であっても、上述の第1実施形態と同様に、現辞書を新辞書で更新すべきか否かを適切に判定することができる。
<第8実施形態>
次に、第8実施形態について説明する。本実施形態は、ユーザが占有する認識辞書に加えて、複数ユーザが共有する認識辞書が存在する場合の例である。図16は、第8実施形態に係るパターン認識システムの機能的な構成例を示すブロック図である。本実施形態に係るパターン認識システムは、図16に示すように、認識部10と、ユーザ記憶部20Aおよび共有記憶部20Bと、メンテナンス部30とを備える。図16では認識部10およびユーザ記憶部20Aをそれぞれ1つのみ図示しているが、認識部10およびユーザ記憶部20Aはユーザごとに設けられる。
ユーザ記憶部20Aは、ユーザが占有する認識辞書を記憶するユーザ辞書記憶部21Aと、ユーザが占有する学習用データセットおよび評価用データセットを記憶するユーザデータ記憶部22Aとを含む。共有記憶部20Bは、複数ユーザが共有する認識辞書を記憶する共有辞書記憶部21Bと、複数ユーザが共有する学習用データセットおよび評価用データセットを記憶する共有データ記憶部22Bとを含む。
本実施形態では、ユーザが占有する認識辞書の初期化と、複数ユーザが共有する認識辞書の初期化とが、上述の第1実施形態と同様の手順(図5参照)で個別に行われる。また、認識辞書を用いたパターン認識は、所定の方法で、ユーザが占有する認識辞書と複数ユーザが共有する認識辞書の双方を用いて行われる。ここで所定の方法とは、例えば、ユーザが占有する認識辞書を用いて認識対象データのラベルを推定した結果、リジェクトと判定された場合に、複数ユーザが共有する認識辞書を用いて認識対象データのラベルを再度推定するといった方法である。リジェクトとは、認識結果の確信度が低い場合に認識結果の出力を保留する処理である。
また、本実施形態では、メンテナンス部30が、ユーザが占有する認識辞書のメンテナンスと、複数ユーザが共有する認識辞書のメンテナンスとを、上述の第1実施形態と同様の手順(図7参照)で個別に行う。ただし、ユーザが占有する認識辞書のメンテナンス時に、共有データ記憶部22Bが記憶する学習用データセットの一部を新辞書の生成に利用することができる。
すなわち、本実施形態のメンテナンス部30は、複数ユーザが共有する認識辞書のメンテナンスを行う際は、共有データ記憶部22Bが記憶する学習用データセットを用いて新辞書を生成し、共有データ記憶部22Bが記憶する評価用データセットを用いて新辞書の性能を評価して第1性能評価値および第2性能評価値を算出する。そして、第1性能評価値が第1閾値以上であり、かつ、第2性能評価値が第2閾値以上である場合に、共有辞書記憶部21Bが記憶する現辞書を新辞書で更新する。
また、本実施形態のメンテナンス部30は、ユーザが占有する認識辞書のメンテナンスを行う際は、ユーザデータ記憶部22Aが記憶する学習用データセットに加え、共有データ記憶部22Bが記憶する学習データセットの中から、ユーザデータ記憶部22Aが記憶する学習用データセットの特徴に近いものを選択的に使用して、新辞書を生成する。例えば、共有データ記憶部22Bが記憶する学習データセットの中から、ユーザデータ記憶部22Aが記憶する学習用データセットの特徴空間上で、学習用データを表す任意の点あるいは代表点からの距離(近さ)が所定範囲内のものを選択して使用する。そして、メンテナンス部30は、ユーザデータ記憶部22Aが記憶する評価用データセットを用いて新辞書の性能を評価して第1性能評価値および第2性能評価値を算出し、第1性能評価値が第1閾値以上であり、かつ、第2性能評価値が第2閾値以上である場合に、ユーザ辞書記憶部21Aが記憶する現辞書を新辞書で更新する。
以上説明したように、本実施形態のパターン認識システムは、ユーザが占有する認識辞書のメンテナンスと複数ユーザが共有する認識辞書のメンテナンスとを上述の第1実施形態と同様の手順で行うようにしているので、ユーザが占有する認識辞書と複数ユーザが共有する認識辞書の双方について、現辞書を新辞書で更新すべきか否かを適切に判定することができる。また、本実施形態では、ユーザが占有する認識辞書のメンテナンス時に、共有データ記憶部22Bが記憶する学習用データセットの一部を新辞書の生成に利用することで、より性能のよい新辞書を生成することが可能となる。
<第9実施形態>
次に、第9実施形態について説明する。本実施形態は、学習用データと評価用データとを入れ替えながら認識辞書の性能を評価するクロスバリデーションを適用した例である。本実施形態では、学習用データセットと評価用データセットが明確に区別されておらず、データ記憶部22内の各教師ありデータは、学習用データとしても評価用データとしても用いられる。したがって、データ記憶部22内の教師ありデータが複数のグループに分類される。
本実施形態では、認識辞書の初期化を行う前の事前準備として、教師ありデータ集合の分割と各教師ありデータの分類、第1閾値の設定などが行われる。すなわち、パターン認識システムの構築前に、多数の教師ありデータが用意される。各教師ありデータは、上述の各実施形態と同様の分類基準に従って複数のグループ(第1グループ、第2グループ)に分類される。そして、これら教師ありデータのデータ集合が、例えばランダムな均等分割によりN個のブロックに分割されてデータ記憶部22に保存されるとともに、第1閾値が設定される。ここでの分割数Nが大きいほど認識辞書の性能評価の信頼度が向上するが、分割数Nに比例してクロスバリデーションの実行時間が増大する。教師ありデータの分類および第1閾値の設定は、例えば管理者の判断に基づいて行われる。
図17は、第9実施形態における認識辞書の初期化の手順を示すフローチャートである。本実施形態では、認識辞書の初期化が開始されると、まず、生成部31および評価部32により、データ記憶部22内の教師ありデータ集合を用いたクロスバリデーションが行われる。クロスバリデーションでは、N分割された教師ありデータ集合のうち、1ブロックを評価用データとし、残りの(N−1)ブロックを学習用データとして、学習用データを用いた評価用認識辞書の生成と評価用データを用いた評価用認識辞書の性能評価とが、評価用データに用いるブロックを順次切り替えながらN回繰り返される。本実施形態では、各評価用認識辞書の性能を評価する際に、第1グループの評価用データに対する認識率と、第2グループの評価用データに対する認識率とを個別に算出する(ステップS701)。
次に、評価部32が、N個の評価用認識辞書それぞれの第1グループの評価用データに対する認識率の平均値を、第1性能評価値として算出する(ステップS702)。そして、第1性能評価値が第1閾値以上であるか否かが判定される(ステップS703)。ここで、第1性能評価値が第1閾値未満であれば(ステップS703:No)、さらに、クロスバリデーションの実施回数が所定回数以上であるか否かが判定される(ステップS704)。そして、クロスバリデーションの実施回数が所定回数未満の場合は(ステップS704:No)、第1実施形態と同様に性能改善対策が行われた後(ステップS705)、ステップS701に戻ってクロスバリデーションが再度実施される。一方、クロスバリデーションの実施回数が所定回数以上の場合は(ステップS704:Yes)、第1実施形態と同様に警告を出力し(ステップS706)、初期化の処理を終了する。
ステップS703で算出した第1性能評価値が第1閾値以上である場合は(ステップS703:Yes)、評価部32は、次に、N個の評価用認識辞書それぞれの第2グループの評価用データに対する認識率の平均値を、第2性能評価値として算出する(ステップS707)。また、生成部31は、Nブロック全ての教師ありデータを学習用データとして用いて初期辞書を生成する(ステップS708)。そして、ステップS707で算出された第2性能評価値が第2閾値として保存されるとともに(ステップS709)、ステップS708で生成された初期辞書が現辞書として辞書記憶部21に保存され(ステップS710)、初期化の処理が終了する。
図18は、第9実施形態における認識辞書のメンテナンスの手順を示すフローチャートである。認識辞書のメンテナンスが開始されると、初期化時と同様に、生成部31および評価部32により、データ記憶部22内の教師ありデータ集合を用いたクロスバリデーションが行われ、N個の評価用認識辞書の生成と性能評価とが繰り返される(ステップS801)。クロスバリデーションでN個の評価用認識辞書を生成する際、上述のステップS301と同様の方法でデータ記憶部22内の教師なしデータを学習に用いてもよい。
次に、評価部32が、N個の評価用認識辞書それぞれの第1グループの評価用データに対する認識率の平均値を、第1性能評価値として算出する(ステップS802)。そして、第1性能評価値が第1閾値以上であるか否かが判定される(ステップS803)。ここで、第1性能評価値が第1閾値未満であれば(ステップS803:No)、更新判定部33により現辞書を新辞書で更新すべきでないと判定され、認識辞書のメンテナンスが終了する。
一方、第1性能評価値が第1閾値以上である場合は(ステップS803:Yes)、評価部32は、次に、N個の評価用認識辞書それぞれの第2グループの評価用データに対する認識率の平均値を、第2性能評価値として算出する(ステップS804)。そして、第2性能評価値が第2閾値以上であるか否かが判定される(ステップS805)。ここで、第2性能評価値が第2閾値未満であれば(ステップS805:No)、更新判定部33により現辞書を新辞書で更新すべきでないと判定され、認識辞書のメンテナンスが終了する。
一方、第2性能評価値が第2閾値以上である場合は(ステップS805:Yes)、更新判定部33により現辞書を新辞書で更新すべきと判定される。この場合、生成部31が、Nブロック全ての教師ありデータを学習用データとして用いて新辞書を生成する(ステップS806)。そして、更新部34が、現辞書をステップS806で生成された新辞書で更新するとともに(ステップS807)、ステップS804で算出された第2性能評価値を第2閾値として保存し(ステップS808)、認識辞書のメンテナンスが終了する。
以上説明したように、本実施形態のパターン認識システムは、クロスバリデーションにより認識辞書の性能を評価するようにしているので、上述の第1実施形態と同様に現辞書を新辞書で更新すべきか否かを適切に判定することができることに加え、学習の効果を高めて、より性能のよい新辞書を生成することが可能となる。
<補足説明>
上述した各実施形態のパターン認識システムは、例えば、汎用のコンピュータを基本ハードウェアとして用いることで実現可能である。すなわち、上述のパターン認識システムの各部の機能は、汎用のコンピュータに搭載された1以上のプロセッサにプログラムを実行させることにより実現することができる。このとき、パターン認識システムは、上記のプログラムをコンピュータに予めインストールすることで実現してもよいし、コンピュータ読み取り可能な記憶媒体に上記のプログラムを記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータに適宜インストールすることで実現してもよい。
図19は、上述した各実施形態のパターン認識システムのハードウェア構成例を示すブロック図である。パターン認識システムは、例えば図19に示すように、CPU(Central Processing Unit)などのプロセッサ101と、RAM(Random Access Memory)やROM(Read Only Memory)などのメモリ102と、HDD(Hard Disk Drive)やSSD(Solid State Drive)などのストレージデバイス103と、液晶パネルなどの表示装置106やキーボードやポインティングデバイスなどの入力装置107といった機器を接続するための機器I/F104と、装置外部と通信を行う通信I/F105と、これら各部を接続するバス108とを備えた一般的なコンピュータとしてのハードウェア構成を有する。
上述した各実施形態のパターン認識システムを図19に示すハードウェア構成により実現する場合、例えば、プロセッサ101がメモリ102を利用して、ストレージデバイス103などに格納されたプログラムを読み出して実行することにより、上述の認識部10やメンテナンス部30(生成部31、評価部32、更新判定部33、更新部34など)の機能を実現することができる。また、例えばストレージデバイス103を用いて、上述の記憶部20(辞書記憶部21およびデータ記憶部22)の機能を実現することができる。
なお、上述の各実施形態のパターン認識システムの各部の機能は、その一部または全部を、ASIC(Application Specific Integrated Circuit)やFPGA(Field-Programmable Gate Array)などの専用のハードウェア(汎用のプロセッサではなく専用のプロセッサ)により実現することもできる。また、複数のプロセッサを用いて上述した各部の機能を実現する構成であってもよい。
また、上述の各実施形態のパターン認識システムは、単一のコンピュータにより実現する場合に限らず、複数のコンピュータに機能を分散して実現することもできる。例えば図20に示すように、ユーザが使用する端末110とサーバ120とがネットワーク130を介して接続される構成のパターン認識システムとしてもよい。この場合、例えば、端末110に認識部10と記憶部20を設け、サーバ120にメンテナンス部30を設ける構成や、端末110に認識部10を設け、サーバ120に記憶部20とメンテナンス部30を設ける構成などが考えられる。また、上述の第8実施形態では、複数ユーザごとの端末110に認識部10およびユーザ記憶部20Aを設け、サーバ120に共有記憶部20Bおよびメンテナンス部30を設ける構成などが考えられる。ただし、これらの場合は、サーバ120において評価部32が認識辞書の性能を評価できるようにするために、認識部10と同等の機能をサーバ120に持たせる必要がある。
以上、本発明の実施形態を説明したが、この実施形態は例として提示したものであり、発明の範囲を限定することは意図していない。この新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
10 認識部
20 記憶部
20A ユーザ記憶部
20B 共有記憶部
30 メンテナンス部
31 生成部
32 評価部
33 更新判定部
34 更新部
40 編集部
50 ラベル付与部
60 分類部
110 端末
120 サーバ
130 ネットワーク

Claims (19)

  1. 認識対象データのラベル推定に用いる認識辞書のメンテナンスを行う認識辞書メンテナンス装置であって、
    学習用データを用いて新規の認識辞書を生成する生成部と、
    複数のグループに分類された評価用データのうち、第1グループの評価用データを用いて前記新規の認識辞書の性能を評価して第1性能評価値を算出し、第2グループの評価用データを用いて前記新規の認識辞書の性能を評価して第2性能評価値を算出する評価部と、
    前記第1性能評価値と前記第2性能評価値とに基づいて、既存の認識辞書を前記新規の認識辞書で更新すべきか否かを判定する更新判定部と、
    を備える認識辞書メンテナンス装置。
  2. 前記更新判定部が更新すべきと判定した場合に、前記既存の認識辞書を前記新規の認識辞書で更新する更新部をさらに備える
    請求項1に記載の認識辞書メンテナンス装置。
  3. 前記更新判定部が更新すべきと判定した場合に、前記既存の認識辞書を前記新規の認識辞書で更新するか否かをユーザに問い合わせ、ユーザから更新指示を受け付けた場合に、前記既存の認識辞書を前記新規の認識辞書で更新する更新部をさらに備える
    請求項1に記載の認識辞書メンテナンス装置。
  4. 前記生成部は、前記既存の認識辞書を用いてラベルが推定された認識対象データを含む前記学習用データを用いて、前記新規の認識辞書を生成する
    請求項1乃至3のいずれか一項に記載の認識辞書メンテナンス装置。
  5. ユーザの教示操作に応じて、前記学習用データに含まれる前記認識対象データに正解ラベルを付与するラベル付与部をさらに備える
    請求項4に記載の認識辞書メンテナンス装置。
  6. 前記更新判定部は、前記第1性能評価値が第1閾値以上であり、かつ、前記第2性能評価値が第2閾値以上である場合に、前記既存の認識辞書を前記新規の認識辞書で更新すべきと判定する
    請求項1乃至5のいずれか一項に記載の認識辞書メンテナンス装置。
  7. 前記第1閾値は予め定めた固定閾値であり、前記第2閾値は、前記第2グループの評価用データを用いて前記既存の認識辞書の性能を評価して算出された第3性能評価値である
    請求項6に記載の認識辞書メンテナンス装置。
  8. 前記第1グループに分類される評価用データがさらに複数のサブグループに分類され、
    前記評価部は、前記第1性能評価値をサブグループごとに算出し、
    前記更新判定部は、サブグループごとに算出した前記第1性能評価値をサブグループごとの前記第1閾値と比較する
    請求項6または7に記載の認識辞書メンテナンス装置。
  9. 前記第2グループに分類される評価用データがさらに複数のサブグループに分類され、
    前記評価部は、前記第2性能評価値をサブグループごとに算出し、
    前記更新判定部は、サブグループごとに算出した前記第2性能評価値をサブグループごとの前記第2閾値と比較する
    請求項6乃至8のいずれか一項に記載の認識辞書メンテナンス装置。
  10. ユーザの編集操作に応じて、前記評価用データの追加、削除、グループ移動を行う編集部をさらに備える
    請求項1乃至9のいずれか一項に記載の認識辞書メンテナンス装置。
  11. 所定の分類基準に基づいて前記評価用データを前記複数のグループに分類する分類部をさらに備える
    請求項1乃至10のいずれか一項に記載の認識辞書メンテナンス装置。
  12. 前記評価用データは、複数の分類基準ごとに複数のグループに分類され、
    前記評価部は、前記複数の分類基準ごとに、前記第1性能評価値と前記第2性能評価値とを算出する
    請求項1乃至11のいずれか一項に記載の認識辞書メンテナンス装置。
  13. 前記複数のグループは、各グループへの帰属度によって連続的に表現される
    請求項1乃至12のいずれか一項に記載の認識辞書メンテナンス装置。
  14. データ集合のうち前記学習用データとして用いるデータと前記評価用データとして用いるデータとを切り替えながら、前記生成部による評価用認識辞書の生成および前記評価部による前記評価用認識辞書の性能評価を繰り返し、
    前記評価部は、前記評価用認識辞書の各々の性能を評価する際に前記第1グループの評価用データを用いた性能評価と前記第2グループの評価用データを用いた性能評価とを個別に行い、前記評価用認識辞書の各々の前記第1グループの評価用データに対する認識率をもとに前記第1性能評価値を算出するとともに、前記評価用認識辞書の各々の前記第2グループの評価用データに対する認識率をもとに前記第2性能評価値を算出し、
    前記生成部は、前記既存の認識辞書を前記新規の認識辞書で更新すべきと判定された場合に、前記データ集合を前記学習用データとして用いて前記新規の認識辞書を生成する
    請求項1乃至13のいずれか一項に記載の認識辞書メンテナンス装置。
  15. 認識辞書を記憶する記憶部と、
    前記認識辞書を用いて認識対象データのラベルを推定する認識部と、
    学習用データを用いて新規の認識辞書を生成する生成部と、
    複数のグループに分類された評価用データのうち、第1グループの評価用データを用いて前記新規の認識辞書の性能を評価して第1性能評価値を算出し、第2グループの評価用データを用いて前記新規の認識辞書の性能を評価して第2性能評価値を算出する評価部と、
    前記第1性能評価値と前記第2性能評価値とに基づいて、前記記憶部が記憶する認識辞書を前記新規の認識辞書で更新すべきか否かを判定する更新判定部と、
    を備えるパターン認識システム。
  16. ネットワークを介して接続される端末とサーバとを含み、
    前記端末が、少なくとも前記認識部を備え、
    前記サーバが、少なくとも前記生成部と前記評価部と前記更新判定部とを備える
    請求項15に記載のパターン認識システム。
  17. 前記記憶部は、ユーザが占有する認識辞書、前記学習用データおよび前記評価用データを記憶するユーザ記憶部と、複数ユーザが共有する認識辞書、前記学習用データおよび前記評価用データを記憶する共有記憶部と、を有し、
    前記サーバが、前記共有記憶部をさらに備え、
    前記生成部は、前記ユーザ記憶部が記憶する学習用データと、前記共有記憶部が記憶する学習用データのうち所定の基準に従って選択された学習用データとを用いて、ユーザが占有する前記新規の認識辞書を生成する
    請求項16に記載のパターン認識システム。
  18. 認識対象データのラベル推定に用いる認識辞書のメンテナンスを行う認識辞書メンテナンス方法であって、
    学習用データを用いて新規の認識辞書を生成するステップと、
    複数のグループに分類された評価用データのうち、第1グループの評価用データを用いて前記新規の認識辞書の性能を評価して第1性能評価値を算出し、第2グループの評価用データを用いて前記新規の認識辞書の性能を評価して第2性能評価値を算出するステップと、
    前記第1性能評価値と前記第2性能評価値とに基づいて、既存の認識辞書を前記新規の認識辞書で更新すべきか否かを判定するステップと、
    を含む認識辞書メンテナンス方法。
  19. コンピュータを、認識対象データのラベル推定に用いる認識辞書のメンテナンスを行う認識辞書メンテナンス装置として機能させるためのプログラムであって、
    前記コンピュータに、
    学習用データを用いて新規の認識辞書を生成する機能と、
    複数のグループに分類された評価用データのうち、第1グループの評価用データを用いて前記新規の認識辞書の性能を評価して第1性能評価値を算出し、第2グループの評価用データを用いて前記新規の認識辞書の性能を評価して第2性能評価値を算出する機能と、
    前記第1性能評価値と前記第2性能評価値とに基づいて、既存の認識辞書を前記新規の認識辞書で更新すべきか否かを判定する機能と、
    を実現させるためのプログラム。
JP2017228245A 2017-11-28 2017-11-28 認識辞書メンテナンス装置、パターン認識システム、認識辞書メンテナンス方法およびプログラム Active JP6514305B1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017228245A JP6514305B1 (ja) 2017-11-28 2017-11-28 認識辞書メンテナンス装置、パターン認識システム、認識辞書メンテナンス方法およびプログラム
CN201810800311.4A CN109840540A (zh) 2017-11-28 2018-07-20 模型维护装置、模式识别系统、模型维护方法及记录介质
US16/125,042 US11526696B2 (en) 2017-11-28 2018-09-07 Model maintenance device, pattern recognition system, model maintenance method, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017228245A JP6514305B1 (ja) 2017-11-28 2017-11-28 認識辞書メンテナンス装置、パターン認識システム、認識辞書メンテナンス方法およびプログラム

Publications (2)

Publication Number Publication Date
JP6514305B1 true JP6514305B1 (ja) 2019-05-15
JP2019101496A JP2019101496A (ja) 2019-06-24

Family

ID=66530754

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017228245A Active JP6514305B1 (ja) 2017-11-28 2017-11-28 認識辞書メンテナンス装置、パターン認識システム、認識辞書メンテナンス方法およびプログラム

Country Status (3)

Country Link
US (1) US11526696B2 (ja)
JP (1) JP6514305B1 (ja)
CN (1) CN109840540A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11113569B2 (en) 2018-08-24 2021-09-07 Kabushiki Kaisha Toshiba Information processing device, information processing method, and computer program product
KR20220127674A (ko) 2021-03-11 2022-09-20 주식회사 케이티 라벨 데이터를 추론하는 서버, 방법 및 컴퓨터 프로그램

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7059166B2 (ja) 2018-11-29 2022-04-25 株式会社東芝 情報処理装置、情報処理方法およびプログラム
EP4053757A4 (en) * 2019-10-29 2022-11-09 Fujitsu Limited DEGRADATION SUPPRESSING PROGRAM, DEGRADATION SUPPRESSING METHOD AND INFORMATION PROCESSING DEVICE
CN111915511A (zh) * 2020-07-06 2020-11-10 中兴飞流信息科技有限公司 一种图像增强模型在线更新系统
US11620162B2 (en) * 2021-05-24 2023-04-04 Capital One Services, Llc Resource allocation optimization for multi-dimensional machine learning environments
CN115081787A (zh) * 2022-03-10 2022-09-20 上海数中科技有限公司 一种模型管理方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2843167B2 (ja) 1991-05-15 1999-01-06 三菱電機株式会社 パターン読取装置
JPH0632087A (ja) 1992-07-14 1994-02-08 Ii P C:Kk 同一性識別カード及び同一性確認方法
EP2182451A1 (en) * 2008-10-29 2010-05-05 Nederlandse Organisatie voor toegepast- natuurwetenschappelijk onderzoek TNO Electronic document classification apparatus
CA2817103C (en) * 2010-11-11 2016-04-19 Google Inc. Learning tags for video annotation using latent subtags

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11113569B2 (en) 2018-08-24 2021-09-07 Kabushiki Kaisha Toshiba Information processing device, information processing method, and computer program product
KR20220127674A (ko) 2021-03-11 2022-09-20 주식회사 케이티 라벨 데이터를 추론하는 서버, 방법 및 컴퓨터 프로그램

Also Published As

Publication number Publication date
JP2019101496A (ja) 2019-06-24
US11526696B2 (en) 2022-12-13
US20190164014A1 (en) 2019-05-30
CN109840540A (zh) 2019-06-04

Similar Documents

Publication Publication Date Title
JP6514305B1 (ja) 認識辞書メンテナンス装置、パターン認識システム、認識辞書メンテナンス方法およびプログラム
US11157693B2 (en) Stylistic text rewriting for a target author
US10789529B2 (en) Neural network data entry system
US11797822B2 (en) Neural network having input and hidden layers of equal units
CN108537176B (zh) 目标弹幕的识别方法、装置、终端及存储介质
US10095684B2 (en) Trained data input system
KR101522156B1 (ko) 텍스트 예측 방법 및 시스템
EP3475837A1 (en) Leveraging information available in a corpus for data parsing and predicting
CN110023930B (zh) 利用神经网络和在线学习的语言数据预测
WO2008100951A2 (en) Contextual input method
US10372310B2 (en) Suppression of input images
JP2015230570A (ja) 学習モデル作成装置、判定システムおよび学習モデル作成方法
EP2869219A1 (en) Text processing apparatus, text processing method, and computer program product
WO2014073206A1 (ja) 情報処理装置、及び、情報処理方法
CN111373418A (zh) 学习设备和学习方法、识别设备和识别方法、程序和记录介质
KR20200119393A (ko) 챗봇을 위한 학습 데이터 추천 장치 및 방법
JP2019204214A (ja) 学習装置、学習方法、プログラム及び推定装置
CN115035890B (zh) 语音识别模型的训练方法、装置、电子设备及存储介质
JP2016177161A (ja) 入力インタフェース構成プログラム、方法及び入力インタフェース提供装置
CN112800752B (zh) 纠错方法、装置、设备以及存储介质
JP2019159918A (ja) クラスタリングプログラム、クラスタリング方法およびクラスタリング装置
JP2020071737A (ja) 学習方法、学習プログラム及び学習装置
US20230385638A1 (en) Point process learning method, point process learning apparatus and program
US20240177061A1 (en) Label accuracy improvement device, label accuracy improvement method, and storage medium
CN116029492B (zh) 派单方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180328

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190411

R150 Certificate of patent or registration of utility model

Ref document number: 6514305

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150