JP6798055B1 - 情報処理装置、情報処理方法、プログラムおよび順序情報 - Google Patents

情報処理装置、情報処理方法、プログラムおよび順序情報 Download PDF

Info

Publication number
JP6798055B1
JP6798055B1 JP2020052183A JP2020052183A JP6798055B1 JP 6798055 B1 JP6798055 B1 JP 6798055B1 JP 2020052183 A JP2020052183 A JP 2020052183A JP 2020052183 A JP2020052183 A JP 2020052183A JP 6798055 B1 JP6798055 B1 JP 6798055B1
Authority
JP
Japan
Prior art keywords
meta information
information
recognition
character
order
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020052183A
Other languages
English (en)
Other versions
JP2021152689A (ja
Inventor
遼平 田中
遼平 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Digital Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Digital Solutions Corp filed Critical Toshiba Corp
Priority to JP2020052183A priority Critical patent/JP6798055B1/ja
Application granted granted Critical
Publication of JP6798055B1 publication Critical patent/JP6798055B1/ja
Priority to CN202180020395.XA priority patent/CN115298707A/zh
Priority to PCT/JP2021/007410 priority patent/WO2021192818A1/ja
Publication of JP2021152689A publication Critical patent/JP2021152689A/ja
Priority to US17/942,858 priority patent/US20230005282A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/12Detection or correction of errors, e.g. by rescanning the pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)

Abstract

【課題】メタ情報を用いる文字認識処理の認識精度を向上させる。【解決手段】実施形態の情報処理装置は、記憶部と、認識部と、更新部と、を備える。記憶部は、認識対象とする文字に対する複数のメタ情報間の順序を定めた順序情報を記憶する。認識部は、複数のメタ情報のうち指定された第1メタ情報を用いて、文字列を含む画像に対して文字認識を実行する。更新部は、文字認識の確信度が予め定められた条件を満たす場合に、順序情報に従って、第1メタ情報を第2メタ情報に更新する。認識部は、更新された第2メタ情報を用いて文字認識を実行する。【選択図】図1

Description

本発明の実施形態は、情報処理装置、情報処理方法、プログラムおよび順序情報に関する。
文字列画像を入力とし、尤もらしい文字列を予測する文字列認識では、文字列画像に付帯する情報を考慮することで認識精度を向上させる手法が提案されている。例えば、帳票画像の認識の場合、住所フィールド、日付フィールド、および、氏名フィールドといったフィールドタイプごとに異なる認識処理を施すことで、より正確な認識が実現される。フィールドタイプは、例えば、文字列画像に付帯するメタ情報として文字認識システムへ入力される。メタ情報は、同形文字の識別、および、認識結果として取りうる文字を絞るために用いられる。
特開2019−079347号公報
しかしながら、従来技術では、メタ情報が間違っている場合、および、メタ情報が想定していない画像が入力された場合、認識精度が低下する可能性があった。
実施形態の情報処理装置は、記憶部と、認識部と、更新部と、を備える。記憶部は、認識対象とする文字に対する複数のメタ情報間の順序を定めた順序情報を記憶する。認識部は、複数のメタ情報のうち指定された第1メタ情報を用いて、文字列を含む画像に対して文字認識を実行する。更新部は、文字認識の確信度が予め定められた条件を満たす場合に、順序情報に従って、第1メタ情報を第2メタ情報に更新する。認識部は、更新された第2メタ情報を用いて文字認識を実行する。
図1は、第1の実施形態にかかる情報処理装置の構成の一例を示すブロック図である。 図2は、順序情報のデータ構造の一例を示す図である。 図3は、記憶部に記憶される順序情報のデータ構造の一例を示す図である。 図4は、第1の実施形態における認識処理の一例を示すフローチャートである。 図5は、メタ情報の指定するためのGUIの一例を示す図である。 図6は、順序情報のデータ構造の一例を示す図である。 図7は、第2の実施形態にかかる情報処理装置の構成の一例を示すブロック図である。 図8は、第2の実施形態の順序情報のデータ構造の一例を示す図である。 図9は、第2の実施形態における認識処理の一例を示すフローチャートである。 図10は、第3の実施形態にかかる情報処理装置の構成の一例を示すブロック図である。 図11は、第3の実施形態における修正処理の一例を示すフローチャートである。 図12は、修正した順序情報の例を示す図である。 図13は、第4の実施形態にかかる情報処理装置の構成の一例を示すブロック図である。 図14は、第4の実施形態における推定処理の一例を示すフローチャートである。 図15は、第1から第4の実施形態にかかる情報処理装置のハードウェア構成例を示す説明図である。
以下に添付図面を参照して、この発明にかかる情報処理装置の好適な実施形態を詳細に説明する。
(第1の実施形態)
メタ情報を用いた認識精度の低下は、以下のような場合に生じうる。例えばカタカナ名フィールドに「マイケル」と記入され、メタ情報として「カタカナ名」が指定されたとする。しかし、カタカナ名に紐づけられた認識処理が「マイケル」のような外国人の名前を想定していなかった場合、認識精度が低下する。
そこで、第1の実施形態では、複数のメタ情報間の順序を定めるように、メタ情報を予め構造化する。そして第1の実施形態では、指定されたメタ情報(以下、指定メタ情報という)で認識結果の確信度が低い場合に、順序に従って更新したメタ情報を用いて文字認識を再実行する。これにより、より精度の高い認識結果を得ることが可能となる。
図1は、第1の実施形態にかかる情報処理装置100の構成の一例を示すブロック図である。図1に示すように、情報処理装置100は、表示部111と、記憶部121と、受付部101と、認識部102と、更新部103と、出力制御部104と、を備えている。
表示部111は、情報処理装置100により処理される各種情報を出力する出力装置の一例である。表示部111は、例えば、ディスプレイなどの情報を表示する表示装置である。情報を出力する出力装置は、表示部111(表示装置)に限られず、どのような装置であってもよい。例えば、出力装置は、インターネットなどのネットワーク(有線、無線を問わない)を介して接続される他の情報処理装置であってもよい。
記憶部121は、情報処理装置100により処理される各種情報を記憶する記憶媒体である。例えば記憶部121は、認識対象とする文字に対する複数のメタ情報間の順序を定めた順序情報を記憶する。記憶部121は、フラッシュメモリ、メモリカード、RAM(Random Access Memory)、HDD(Hard Disk Drive)、および、光ディスクなどの一般的に利用されているあらゆる記憶媒体により構成することができる。
ここで、順序情報のデータ構造について説明する。図2は、順序情報のデータ構造の一例を示す図である。図2の順序情報は、複数のメタ情報それぞれをノードとし、有向エッジでノード間を接続した有向非巡回グラフで表される例である。なお順序情報のデータ構造は、有向非巡回グラフに限られない。
有向非巡回グラフとは、ノードと、方向を持つエッジと、を含む有向グラフのうち、閉じた回路を持たないグラフ構造である。すなわち有向非巡回グラフでは、いずれのノードから出発してエッジを辿っても、再び同じノードに戻ることはない。以下では、有向エッジで接続される2つのノードのうち、接続元(始点)となるノードを始点ノードと呼び、有向エッジが指し示すノード(終点となるノード、接続先となるノード)を終点ノードと呼ぶ。有向非巡回グラフのノードのうち、いずれのノードの接続元(始点)でも無いノードを先端ノードと呼び、いずれのノードの接続先(終点)でもないノードを末端ノードと呼ぶ。
図2の順序情報は、末端ノードに近いメタ情報ほど、メタ情報の表す集合が細分化されるような有向非巡回グラフとして表した例である。順序情報は、先端ノードに近いメタ情報ほど、メタ情報の表す集合が細分化されるような有向非巡回グラフであってもよい。
図2の有向非巡回グラフは、「指定なし」、「住所」、「英数記号」、「カタカナ」、「英単語」、「数字」、「カタカナ姓」、および、「カタカナ名」がフィールドタイプを示すメタ情報として定義されたノードを含む。有向エッジで接続された2つのメタ情報に注目したとき、始点ノードのメタ情報が、終点ノードのメタ情報の部分集合を表すように有向非巡回グラフが定義される。
例えば図2の場合、先端ノードは、フィールドタイプが「指定なし」であり、フィールドタイプに仮定を置かない最も大きい集合(全集合)を表す。「指定なし」を終点とするノードに対応する「住所」、「英数記号」、「カタカナ」は、「指定なし」の部分集合に相当する。「英数記号」を終点とするノードに対応する「英単語」、「数字」は、「英数記号」の部分集合に相当する。「カタカナ」を終点とするノードに対応する「カタカナ性」、「カタカナ名」は、「カタカナ」の部分集合に相当する。このように、末端ノードに近いほどメタ情報の表す集合が細分化される。
図3は、記憶部121に記憶される順序情報のデータ構造の一例を示す図である。図3に示すように、記憶部121は、有向非巡回グラフを構成するすべてのノードについて各ノードの接続先となるノード(終点ノード)を記載したテーブルの形式で有向非巡回グラフを記憶する。なお、図3のデータ構造は一例であり、他の構造により順序情報が記憶されてもよい。
図1に戻り、他の機能について説明する。
受付部101は、情報処理装置100で用いられる各種情報の入力を受け付ける。例えば受付部101は、認識処理の対象となる画像(文字列を含む画像)を受け付ける。受付部101による各データの受付方法は、どのような方法であってもよい。例えば、外部装置からネットワークを介して取得する方法、および、記憶媒体に記憶されたデータを読み込む方法などを適用できる。ネットワークは、LAN(ローカルエリアネットワーク)、および、インターネットなどであるが、その他のどのようなネットワークであってもよい。またネットワークは、有線ネットワークおよび無線ネットワークのいずれであってもよい。
また、受付部101は、例えばユーザにより指定されたメタ情報を受け付ける。ユーザによる情報の指定方法はどのような方法であってもよいが、例えばキーボード、マウスなどの入力装置を用いて指定する方法を適用できる。
認識部102は、文字列を含む画像に対する文字認識を実行する。認識部102は、指定されたメタ情報を用いて、メタ情報に応じた文字認識を実行する。例えばメタ情報(フィールドタイプ)が「指定なし」の場合、認識部102は、すべての字種および文字の並びを取りうることを想定して文字認識を実行する。メタ情報が「カタカナ」の場合、認識部102は、字種をカタカナに限定して文字認識を実行する。また、メタ情報が「カタカナ姓」の場合、認識部102は、カタカナ性に相当する並びとなる文字列に限定して文字認識を実行する。適切なメタ情報が指定されれば、認識精度を高めることができる。
メタ情報に応じて認識処理を切り替える方法はどのような方法であってもよいが、例えば以下の(M1)から(M3)の3つの方法を適用できる。
(M1)メタ情報ごとに文字列認識モデルを用意する。文字列認識モデルは、例えばニューラルネットワークおよび隠れマルコフモデル(HMM:Hidden Markov Model)である。
(M2)字形の認識にはメタ情報によらない共通のアルゴリズムを用いて複数の候補を推定し、事後的な文字列候補の選択時にメタ情報によって異なる順位付け処理を行う。
(M3)文字列画像に加えてメタ情報をベクトルとして入力可能な文字列認識モデルを用いる。例えばメタ情報と文字列画像とを入力し、認識結果を出力するニューラルネットワークを文字列認識モデルとして用いることができる。
メタ情報をベクトルに変換するには、例えばワンホットベクトルを用いればよい。ワンホットベクトルは、例えば該当ノードの次元番号に対応する次元のみ「1」となり、他の次元は「0」となり、次元数がノード数と同じとなるベクトルである。次元番号は、例えば図3のように各ノードに一意な識別情報として割り当てられる番号である。図3のグラフ構造の場合、「カタカナ姓」を表すベクトルは(0,0,0,0,0,0,1,0)となる。
更新部103は、順序情報で定められる順序に従ってメタ情報を更新する。例えば更新部103は、指定されたメタ情報(第1メタ情報)を用いた認識部102による文字認識の確信度が予め定められた条件を満たす場合に、順序情報に従って、指定されたメタ情報を他のメタ情報(第2メタ情報)に更新する。より具体的には、更新部103は、指定されたメタ情報を、このメタ情報から有向エッジで接続されるメタ情報に更新する。
予め定められた条件は、例えば確信度が閾値以上となる条件である。条件は、これに限られず、例えば、確信度が小さいと判定できるような他の条件を用いてもよい。例えば、確信度が最良である認識結果と、確信度が2番目である認識結果との間の確信度の差分が閾値以下であるという条件が用いられてもよい。
出力制御部104は、情報処理装置100による各種情報の出力を制御する。例えば出力制御部104は、認識結果を、表示部111、および、この認識結果を使用する他の装置などに出力する。また出力制御部104は、順序情報が定める順序に従いメタ情報を表示部11に表示する機能を備えてもよい(詳細は後述)。
上記各部(受付部101、認識部102、更新部103、および、出力制御部104)は、例えば、1または複数のプロセッサにより実現される。例えば上記各部は、CPU(Central Processing Unit)などのプロセッサにプログラムを実行させること、すなわちソフトウェアにより実現してもよい。上記各部は、専用のIC(Integrated Circuit)などのプロセッサ、すなわちハードウェアにより実現してもよい。上記各部は、ソフトウェアおよびハードウェアを併用して実現してもよい。複数のプロセッサを用いる場合、各プロセッサは、各部のうち1つを実現してもよいし、各部のうち2以上を実現してもよい。
次に、このように構成された第1の実施形態にかかる情報処理装置100による認識処理について説明する。図4は、第1の実施形態における認識処理の一例を示すフローチャートである。
受付部101は、認識対象となる画像、および、メタ情報を受け付ける(ステップS101)。認識部102は、受け付けられた画像およびメタ情報に対して文字認識を実行し、尤もらしい文字列と、その文字列の確信度とを予測して出力する(ステップS102)。認識部102は、確信度が閾値以上であるか否かを判定する(ステップS103)。
なお、閾値は予め定められた一定値であってもよいし、規則に従って変更される値であってもよい。規則は、例えば、メタ情報を更新して(後述のステップS107)ステップS102の文字認識を実行するごとに、閾値を増加させる規則などである。増加させる規則は、例えば、文字認識を実行するごとに所定の倍率(例えば1.1倍)を乗じて増加させる規則、および、文字認識を実行するごとに所定の値を加算する規則などを適用できる。
確信度が閾値以上の場合(ステップS103:Yes)、認識部102は、予測した文字列を認識結果として出力し(ステップS104)、認識処理を終了する。確信度が閾値以上でない場合(ステップS103:No)、認識部102は、予測した確信度および文字列(認識結果)を記憶部121に記憶する(ステップS105)。
更新部103は、指定されたメタ情報(文字認識に用いたメタ情報)の接続先があるか否かを判定する(ステップS106)。例えば更新部103は、順序情報を参照し、指定されたメタ情報が先端ノードである場合に、接続先がないと判定する。接続先がない場合(ステップS106:No)、更新部103は、これまで記憶部121に記憶された認識結果の中から確信度が最良の認識結果を出力し(ステップS107)、認識処理を終了する。
接続先がある場合(ステップS106:Yes)、更新部103は、順序情報に従いメタ情報を更新する(ステップS108)。例えば更新部103は、メタ情報を、順序情報で定められた接続先のノードに相当するメタ情報に更新する。図2および図3に示すような順序情報の場合、メタ情報は、より大きい集合に属するメタ情報に更新される。
この後、ステップS102に戻り、更新されたメタ情報を用いて認識部102による文字認識が再度実行される。
ステップS107で出力する認識結果は、確信度のみでなく、他の要素を考慮して決定されてもよい。例えば、更新部103は、確信度に加えて、文字認識(ステップS102)の繰り返し数を評価指標に加え、繰り返し数がより少なく、かつ、より良い確信度を持った認識結果を選択して出力してもよい。また例えば更新部103は、記憶された認識結果の中で最頻の認識結果を選択して出力してもよい。
以下、認識処理の具体例を説明する。認識対象とする画像は文字列「マイケル」を含む文字列画像であり、指定されたメタ情報は「カタカナ名」であり、確信度の閾値は「0.5」であるとする。また、メタ情報が「カタカナ名」の場合、日本語の名である「マイコ」は想定されているが、外国語の名である「マイケル」が想定外であるとする。一方、メタ情報が「カタカナ」の場合、「マイケル」が想定されているとする。
上記前提で1回目の文字認識(ステップS102)で、認識結果が「マイコ」であり、確信度が「0.3」であったとする。この場合、確信度が閾値以下であるため(ステップS103:No)、メタ情報は「カタカナ名」の接続先である「カタカナ」に更新される(ステップS108)。更新後のメタ情報で再度文字認識(ステップS102)を実行し、認識結果が「マイケル」であり、確信度が「0.8」であったとする。確信度が閾値以上となったため(ステップS103:Yes)、「マイケル」が認識結果として出力される(ステップS104)。
本実施形態を適用しない場合は、例えば、指定されたメタ情報である「カタカナ名」に従った文字認識により確信度が低い「マイコ」が認識結果として出力される。これに対して本実施形態を適用すれば、メタ情報を「カタカナ」に更新して文字認識を再度実行できるため、より確信度が高い「マイケル」を認識結果として出力することが可能となる。
認識処理で使用するメタ情報は、例えばユーザにより指定される。出力制御部104は、ユーザにより指定可能とするメタ情報を、順序情報に従って表示してもよい。図5は、メタ情報の指定するためのGUI(Graphical User Interface)の一例を示す図である。
例えば出力制御部104は、以下の手順で逐次的にメタ情報を表示する。まず出力制御部104は、記憶部121に記憶された有向非巡回グラフの先端ノード、すなわち接続先のないノードにあたるメタ情報を表示する。表示されたメタ情報の1つがユーザにより選択されたとき、出力制御部104は、選択されたメタ情報に接続するメタ情報をさらに表示する。以下、ユーザの選択に応じて同様の処理が繰り返される。
先端ノードが1つのみの場合、先端ノードが選択されることは明らかなため、先端ノードに接続されるノードも表示してもよい。図5は、先端ノードに対応するメタ情報「指定なし」と、先端ノードに接続するノードに対応する3つのメタ情報「住所」、「英数記号」、「カタカナ」と、が最初に表示される例が示されている。また図5は、「カタカナ」が選択されたことに応じて、「カタカナ」に接続されるノードに対応する2つのメタ情報「カタカナ姓」、「カタカナ名」がさらに表示される例が示されている。
ユーザによる選択方法はどのような方法であってもよいが、例えば、メタ情報をクリックする方法、および、メタ情報にポインタを合わせる方法(マウスオーバーなど)などを適用できる。
このように階層的に整理してメタ情報を表示することで、メタ情報の数が多くグラフ構造が複雑な場合でも、ユーザによるメタ情報の選択をより容易にすることができる。
これまでは、フィールドタイプをメタ情報とする例を説明したが、メタ情報はこれ以外のどのような情報であってもよい。例えば、手書き、および、活字などの字形をメタ情報としてもよい。図6は、字形をメタ情報とする場合の順序情報のデータ構造の一例を示す図である。
図6では、「手書き」の部分集合として「筆記者A」、「筆記者B」など筆記者を示すメタ情報を設定し、「活字」の部分集合として「ゴシック体」、「明朝体」などのフォントを示すメタ情報を設定する例が示されている。
(変形例1)
メタ情報を示す順序情報は、1つのみでなく、N個以上(Nは2以上の整数)であってもよい。例えば、図2(図3)に示す順序情報と、図6に示す順序情報との2つの順序情報が用いられてもよい。この場合、記憶部121は、2種類のメタ情報(フィールドタイム、字形)にそれぞれ対応する、有向非巡回グラフで表された2つの順序情報を記憶する。
認識部102は、2つのメタ情報に応じた認識処理を行う。図2(フィールドタイプ)および図6(字形)の2つの順序情報を用いる場合、8つのフィールドタイプと7つの字形との組み合わせである56通りの認識処理が実行される。すなわち、認識部102は、N個の順序情報で定められる複数のメタ情報のそれぞれから指定されたN個のメタ情報を用いて文字認識を実行する。
メタ情報の種類は、フィールドタイプおよび字形の他に、言語および撮影条件などのどのような種類であってもよい。複数種類のメタ情報を利用することで、より詳細な条件を仮定し、認識部102の予測精度をより向上させることができる。
(変形例2)
ユーザの入力するメタ情報は、重みづけされた複数のメタ情報であってもよい。例えば図2では、「住所」の重みとして「1.0」、「カタカナ名」の重みとして「0.6」のようにメタ情報に重みが付与される。
この場合、認識部102は、入力されたすべてのメタ情報を用いて文字認識を実行し、重みと確信度とから求められる評価値(例えば重みと確信度との積)が最良の認識結果を出力すればよい。この後、上記実施形態で述べたようなメタ情報の更新を実行することができる。
重み付き複数メタ情報指定は、メタ情報(フィールドタイプなど)がある程度限定されるが確信が持てない場合に有用である。例えば、メタ情報を推定する推定処理などにより推定されたメタ情報を、推定の確信度に相当する重みと対応づけて記憶し、記憶したメタ情報を用いて文字認識を実行するように構成することができる。このようにメタ情報を推定(予測)するシステムを用いる場合、予測結果は確率分布となることが多いため、重み付きで複数のメタ情報を指定する機能が有効である。
このように、第1の実施形態にかかる情報処理装置では、複数のメタ情報の順序を示す順序情報(グラフ構造)を用いることで、予め想定していない入力に対しても柔軟にメタ情報を更新し、より高精度な認識が可能になる。また、本実施形態によれば、メタ情報を順序情報に従って順番に表示することでユーザが適切なメタ情報を指定可能なGUIを実現することができる。
(第2の実施形態)
第1の実施形態では、1つのメタ情報の接続先が1つ以下である場合を説明した。第2の実施形態では、1つのメタ情報の接続先が2つ以上の場合について説明する。
図7は、第2の実施形態にかかる情報処理装置100−2の構成の一例を示すブロック図である。図7に示すように、情報処理装置100−2は、表示部111と、記憶部121−2と、受付部101と、認識部102−2と、更新部103−2と、出力制御部104と、を備えている。
第2の実施形態では、記憶部121−2、認識部102−2および更新部103−2の機能が第1の実施形態と異なっている。その他の構成および機能は、第1の実施形態にかかる情報処理装置100のブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
記憶部121−2は、重みが付与された順序情報を記憶する点が、第1の実施形態の記憶部121と異なっている。例えば第2の実施形態では、順序情報は、複数のメタ情報をノードとし、重みが付与された有向エッジでノード間を接続した重み付き有向非巡回グラフで表される。
図8は、第2の実施形態の順序情報のデータ構造の一例を示す図である。重み付き有向非巡回グラフは、図8の「数字」のように2つ以上のノードに接続されるノードが存在するとき場合に有効である。なお第1の実施形態は、本実施形態ですべての重みを1とした特別な場合とみなすことができる。
重みの決定方法はどのような方法であってもよいが、例えば、所有するデータセット(学習データ、認識済みの帳票のデータなど)の中の各メタ情報の出現頻度から統計的に決定する方法、および、アプリケーションにおける各メタ情報の重要度から決定する方法などを適用できる。
認識部102−2は、重みと確信度とから評価値を算出し、評価値を用いて認識結果を評価する点が、第1の実施形態の認識部102と異なっている。更新部103−2は、確信度の代わりに評価値を用いてメタ情報を更新する点が、第1の実施形態の更新部103と異なっている。
次に、このように構成された第2の実施形態にかかる情報処理装置100−2による認識処理について図9を用いて説明する。図9は、第2の実施形態における認識処理の一例を示すフローチャートである。
受付部101は、認識対象となる画像、および、メタ情報を受け付ける(ステップS201)。認識部102−2は、受け付けられた画像およびメタ情報に対して文字認識を実行し、尤もらしい文字列と、その文字列の確信度とを予測して出力する(ステップS202)。
最初の文字認識では、重みは1に設定され、指定メタ情報は1つである。2回目以降の文字認識では、メタ情報の接続先が2つ以上となりうるため、指定メタ情報は2つ以上となる場合がある。また、重みは、更新前後のメタ情報を接続する有向エッジに付与された重みが設定される。認識部102−2は、1以上の指定メタ情報および画像に対する文字認識の結果および確信度のペアを出力する。
認識部102−2は、重みおよび確信度から算出される評価値が最良のメタ情報を選択する(ステップS203)。認識部102−2は、例えば以下の手順に従いメタ情報を選択する。
指定メタ情報の数をM(Mは1以上の整数)とし、各メタ情報、重み、認識結果、および、確信度をそれぞれm、w、r、s(i=1,2,・・・,N)と表記する。まず認識部102−2は、例えば以下の(1)式により、評価値を算出する。gは予め定められた評価値を算出する関数である。以下のgは、確信度と重みの積を評価値とする関数の例である。
g(w、s)=w×s ・・・(1)
次に認識部102−2は、評価値が最良のメタ情報m*を以下の(2)式に従い選択する(ステップS203)。
m*=argmax(g(w、s)) ・・・(2)
認識部102−2は、選択したメタ情報m*に対応する評価値が閾値以上であるか否かを判定する(ステップS204)。評価値が閾値以上の場合(ステップS204:Yes)、認識部102−2は、予測した文字列を認識結果として出力し(ステップS205)、認識処理を終了する。評価値が閾値以上でない場合(ステップS204:No)、認識部102−2は、選択したメタ情報m*に対応する文字認識の結果および確信度のペアを記憶部121に記憶する(ステップS206)。
更新部103−2は、指定されたメタ情報(文字認識に用いたメタ情報)の接続先があるか否かを判定する(ステップS207)。接続先がない場合(ステップS207:No)、更新部103−2は、これまで記憶部121に記憶された認識結果の中から評価値が最良の認識結果を出力し(ステップS208)、認識処理を終了する。
接続先がある場合(ステップS207:Yes)、更新部103−2は、順序情報に従いメタ情報を更新する(ステップS209)。例えば更新部103−2は、メタ情報を、順序情報で定められた接続先のノードに相当するメタ情報に更新する。
本実施形態では、更新部103−2は、更新後のメタ情報に、更新前後の有向エッジに付与された重みを対応づけて、認識部102−2に出力する。接続先のノードが2つ以上である場合、更新部103−2は、複数のノードそれぞれに対応する複数のメタ情報に、それぞれ重みを対応づけて出力する。
この後、ステップS202に戻り、更新された1つ以上のメタ情報を用いて認識部102による文字認識が再度実行される。
このように、第2の実施形態にかかる情報処理装置では、重み付き有向非巡回グラフを使うことで、より柔軟な設計が可能になり高精度な認識を実現することができる。
(第3の実施形態)
第3の実施形態にかかる情報処理装置は、メタ情報の順序を示す順序情報を修正する機能を備える。
図10は、第3の実施形態にかかる情報処理装置100−3の構成の一例を示すブロック図である。図10に示すように、情報処理装置100−3は、表示部111と、記憶部121−3と、受付部101と、認識部102と、更新部103−3と、出力制御部104と、修正部105−3と、を備えている。
第3の実施形態では、記憶部121−3および更新部103−3の機能と、修正部105−3を追加したことが第1の実施形態と異なっている。その他の構成および機能は、第1の実施形態にかかる情報処理装置100のブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
記憶部121−3は、更新部103−3によるメタ情報の更新の履歴をさらに記憶する点が、第1の実施形態の記憶部121と異なっている。例えば記憶部121−3は、更新前後のメタ情報を対応づけた履歴を記憶する。
更新部103−3は、メタ情報を更新したときに、上記のような更新の履歴を記憶部121に記憶する機能を備える点が、第1の実施形態の更新部103と異なっている。
修正部105−3は、メタ情報の過去の更新の履歴に基づいて、順序情報が定める複数のメタ情報間の順序の少なくとも一部を修正する。例えば修正部105−3は、有向非巡回グラフの有向エッジを付け替えることによりメタ情報間の順序を修正する。
次に、このように構成された第3の実施形態にかかる情報処理装置100−3によるメタ情報の修正処理について図10を用いて説明する。図11は、第3の実施形態における修正処理の一例を示すフローチャートである。なお、修正処理は、例えば、一定期間が経過するごと、または、一定数の文字認識を実行するごとなどの、どのようなタイミングで実行されてもよい。
修正部105−3は、記憶部121−3に記憶された更新履歴を参照して、修正対象とするメタ情報を特定する。例えば修正部105−3は、更新数が閾値以上のメタ情報を特定する(ステップS301)。修正部105−3は、順序情報内の、特定したメタ情報の接続先を修正する(ステップS302)。例えば修正部105−3は、特定したメタ情報の接続先を、同じ接続先に接続する他の始点ノードとなるように、順序情報の有向エッジを修正する。修正部105−3の修正方法は上記の方法に限られず、どのような方法であってもよい。
例えば、ユーザの扱う帳票のデザインの影響で「カタカナ名」のフィールドに誤って「カタカナ姓」が記入されることが多いとする。この場合、更新履歴として、「カタカナ名」を「カタカナ」に更新する頻度が増加する。修正部105−3は、このような更新履歴を参照して、「カタカナ名」の接続先のノードが、例えば「カタカナ」に接続する他の始点ノードである「カタカナ姓」となるように有向エッジを修正する。図12は、このようにして図2の順序情報を修正した順序情報の例を示す図である。
以降の認識処理では、修正後の順序情報が使用される。これにより、誤って記入されたカタカナ姓の情報を正しく認識できる可能性を向上させることができる。
このように、第3の実施形態にかかる情報処理装置では、順序情報を修正する機能をさらに備えることにより、認識精度をより向上させることが可能となる。
(第4の実施形態)
これまでは、順序情報を用いてメタ情報を修正することにより、メタ情報を用いた文字認識処理の精度を向上させる例を説明した。順序情報を用いる処理は認識処理に限られない。第4の実施形態にかかる情報処理装置は、順序情報を用いてメタ情報を推定する推定処理の精度を向上させる例を説明する。
メタ情報の推定処理は、例えば、帳票の画像(文字列画像)から文字を認識するために各フィールドに設定するメタ情報を、文字列画像から推定する場合に用いられる。
図13は、第4の実施形態にかかる情報処理装置100−4の構成の一例を示すブロック図である。図13に示すように、情報処理装置100−4は、表示部111と、記憶部121と、受付部101と、認識部102と、推定部106−4と、出力制御部104と、を備えている。
第4の実施形態では、更新部103の代わりに推定部106−4を備える点が第1の実施形態と異なっている。その他の構成および機能は、第1の実施形態にかかる情報処理装置100のブロック図である図1と同様であるので、同一符号を付し、ここでの説明は省略する。
推定部106−4は、画像に対する文字認識の結果から、画像に含まれる文字列のメタ情報を推定する。例えば推定部106−4は、指定されたメタ情報(例えば先端ノードに対応するメタ情報)と順序情報とに基づいてメタ情報を順に選択し、選択したメタ情報を用いた文字認識の確信度を算出する。推定部106−4は、算出した確信度に基づいて、画像に含まれる文字列のメタ情報を推定する。例えば推定部106−4は、確信度が他のメタ情報より良いメタ情報を、推定結果として出力する。
次に、このように構成された第4の実施形態にかかる情報処理装置100−4によるメタ情報の推定処理について図14を用いて説明する。図14は、第4の実施形態における推定処理の一例を示すフローチャートである。
受付部101は、認識対象となる画像を受け付ける(ステップS401)。推定部106−4は、文字認識時に指定するメタ情報を選択する(ステップS402)。初回の文字認識では、推定部106−4は、例えば先端ノード(接続先がないノード)に対応する1以上のメタ情報を選択する。
認識部102は、受け付けられた画像および選択されたメタ情報に対して文字認識を実行し、尤もらしい文字列と、その文字列の確信度とを予測し、予測した確信度および文字列(認識結果)を記憶部121に記憶する(ステップS403)。認識部102は、確信度が最良のメタ情報を選択する(ステップS404)。
推定部106−4は、文字認識に用いたメタ情報に接続するメタ情報があるか否かを判定する(ステップS405)。例えば推定部106−4は、順序情報を参照し、文字認識に用いたメタ情報を接続先とする、接続元のノードに対応するメタ情報を探索する。接続元のノードがある場合、推定部106−4は、接続するメタ情報があると判定する。文字認識に用いたメタ情報が末端ノードである場合に、推定部106−4は、接続するメタ情報がないと判定する。
接続するメタ情報がない場合(ステップS405:No)、推定部106−4は、これまで記憶部121に記憶された認識結果の中から確信度が最良の認識結果が得られたメタ情報を、推定結果として出力し(ステップS407)、推定処理を終了する。推定部106−4は、推定結果であるメタ情報とともに、確信度および認識結果を出力してもよい。
接続先がある場合(ステップS405:Yes)、推定部106−4は、順序情報に従いメタ情報を更新する(ステップS406)。例えば推定部106−4は、メタ情報を、順序情報で定められた接続元のノードに相当するメタ情報に更新する。図2および図3に示すような順序情報の場合、メタ情報は、より小さい集合に属するメタ情報に更新される。
この後、ステップS403に戻り、更新されたメタ情報を用いて認識部102による文字認識が再度実行される。
以下、推定処理の具体例を説明する。図2のような順序情報が定義されており、認識対象とする画像は文字列「マイケル」を含む文字列画像であるとする。まず推定部106−4は、「指定なし」をメタ情報として認識部102に入力する。このとき確信度は「0.6」であったとする。
次に推定部106−4は、「指定なし」に接続する「住所」、「英数記号」、「カタカナ」をメタ情報として認識部102に入力する。このとき、確信度はそれぞれ「0.5」、「0.1」、「0.8」であったとする。
この場合、推定部106−4は、確信度が最良の「カタカナ」に接続する「カタカナ姓」、「カタカナ名」をメタ情報として認識部102に入力する。このとき、確信度はそれぞれ「0.6」、「0.3」であったとする。
「カタカナ姓」、「カタカナ名」に接続するノードはないため、推定部106−4は、確信度が「0.8」で最良であった「カタカナ」を、メタ情報の推定結果として出力する。
以上のような推定処理は、単一の文字列画像に対して実行されてもよいし、複数の文字列画像に対して実行されてもよい。例えば、同一のメタ情報を持つと想定される複数の文字列画像から、このメタ情報を推定する場合に、上記の推定処理を応用することができる。
例えば推定部106−4は、単一の文字列画像を入力する場合と同様の処理をすべての文字列画像について実行し、出力されたメタ情報の最頻値を推定結果として出力する。最良の推定結果の評価方法はこれに限られるものではない。例えば推定部106−4は、確信度を重みとした重み付き投票で評価値が最良となるメタ情報を推定結果として出力してもよい。複数の文字列画像に対する認識結果を用いて多数決を取ることによって、より精度の高いメタ情報推定を行うことができる。
(変形例3)
第1の実施形態の変形例1と同様に、メタ情報を示す順序情報は、1つのみでなく、N個以上(Nは2以上の整数)であってもよい。推定部106−4は、N個の順序情報それぞれについて、先端ノードから順にメタ情報を選択し、認識部102に入力する。推定部106−4は、N個の順序情報それぞれについて確信度が最良となるメタ情報を推定して出力する。
このように、第4の実施形態にかかる情報処理装置では、有向非巡回グラフなどの順序情報に従った順序で尤もらしいメタ情報(ノード)を優先的に探索することで、より効率的なメタ情報の推定処理を実現できる。
以上説明したとおり、第1から第4の実施形態によれば、メタ情報を用いる文字認識処理の認識精度、または、メタ情報を推定する処理の効率向上を実現できる。
次に、第1から第4の実施形態にかかる情報処理装置のハードウェア構成について図15を用いて説明する。図15は、第1から第4の実施形態にかかる情報処理装置のハードウェア構成例を示す説明図である。
第1から第4の実施形態にかかる情報処理装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM(Random Access Memory)53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
第1から第4の実施形態にかかる情報処理装置で実行されるプログラムは、ROM52等に予め組み込まれて提供される。
第1から第4の実施形態にかかる情報処理装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
さらに、第1から第4の実施形態にかかる情報処理装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第1から第4の実施形態にかかる情報処理装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
第1から第4の実施形態にかかる情報処理装置で実行されるプログラムは、コンピュータを上述した情報処理装置の各部として機能させうる。このコンピュータは、CPU51がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100、100−2、100−3、100−4 情報処理装置
101 受付部
102、102−2 認識部
103、103−2,103−3 更新部
104 出力制御部
105−3 修正部
106−4 推定部
111 表示部
121、121−2、121−3 記憶部

Claims (18)

  1. 認識対象とする文字に対する複数のメタ情報間の順序を定めた順序情報を記憶する記憶部と、
    複数の前記メタ情報のうち指定された第1メタ情報を用いて、文字列を含む画像に対して文字認識を実行する認識部と、
    前記文字認識の確信度が予め定められた条件を満たす場合に、前記順序情報に従って、前記第1メタ情報を第2メタ情報に更新する更新部と、を備え、
    前記認識部は、更新された前記第2メタ情報を用いて前記文字認識を実行し、
    前記順序情報は、複数の前記メタ情報をノードとし、有向エッジで前記ノード間を接続した有向非巡回グラフで表され、
    前記更新部は、前記第1メタ情報を、前記第1メタ情報と前記有向エッジで接続される前記第2メタ情報に更新する、
    情報処理装置。
  2. 認識対象とする文字に対する複数のメタ情報間の順序を定めた順序情報を記憶する記憶部と、
    複数の前記メタ情報のうち指定された第1メタ情報を用いて、文字列を含む画像に対して文字認識を実行する認識部と、
    前記文字認識の確信度が予め定められた条件を満たす場合に、前記順序情報に従って、前記第1メタ情報を第2メタ情報に更新する更新部と、を備え、
    前記認識部は、更新された前記第2メタ情報を用いて前記文字認識を実行し、
    前記記憶部は、N個(Nは2以上の整数)の順序情報を記憶し、
    前記認識部は、N個の前記順序情報で定められるN個のメタ情報のそれぞれから指定されたN個の第1メタ情報を用いて前記文字認識を実行する、
    報処理装置。
  3. 認識対象とする文字に対する複数のメタ情報間の順序を定めた順序情報を記憶する記憶部と、
    複数の前記メタ情報のうち指定された第1メタ情報を用いて、文字列を含む画像に対して文字認識を実行する認識部と、
    前記文字認識の確信度が予め定められた条件を満たす場合に、前記順序情報に従って、前記第1メタ情報を第2メタ情報に更新する更新部と、を備え、
    前記認識部は、更新された前記第2メタ情報を用いて前記文字認識を実行し、
    前記順序情報は、複数の前記メタ情報をノードとし、重みが付与された有向エッジで前記ノード間を接続した有向非巡回グラフで表され、
    前記更新部は、前記重みと前記確信度とから求められる評価値に基づいて、前記第1メタ情報を第2メタ情報に更新する、
    報処理装置。
  4. 前記認識部は、前記第1メタ情報と前記画像とを入力し、認識結果を出力するニューラルネットワークを用いて前記文字認識を実行する、
    請求項1〜3のいずれか1項に記載の情報処理装置。
  5. 前記認識部は、重みが付与された複数の前記メタ情報のうち指定された第1メタ情報を用いて前記文字認識を実行し、
    前記更新部は、前記重みと前記確信度とから求められる評価値が予め定められた条件を満たす場合に、前記順序情報に従って、前記第1メタ情報を前記第2メタ情報に更新する、
    請求項1〜3のいずれか1項に記載の情報処理装置。
  6. 前記更新部による更新の履歴に基づいて、前記順序情報が定める複数のメタ情報間の順序の少なくとも一部を修正する修正部をさらに備える、
    請求項1〜3のいずれか1項に記載の情報処理装置。
  7. 前記順序情報が定める順序に従い前記メタ情報を表示部に表示する出力制御部をさらに備える、
    請求項1〜3のいずれか1項に記載の情報処理装置。
  8. 認識部が、認識対象とする文字に対する複数のメタ情報のうち指定された第1メタ情報を用いて、文字列を含む画像に対して文字認識を実行する認識ステップと、
    更新部が、前記文字認識の確信度が予め定められた条件を満たす場合に、複数の前記メタ情報間の順序を定めた順序情報に従って、前記第1メタ情報を第2メタ情報に更新する更新ステップと、を含み、
    前記認識ステップは、更新された前記第2メタ情報を用いて前記文字認識を実行し、
    前記順序情報は、複数の前記メタ情報をノードとし、有向エッジで前記ノード間を接続した有向非巡回グラフで表され、
    前記更新ステップは、前記第1メタ情報を、前記第1メタ情報と前記有向エッジで接続される前記第2メタ情報に更新する、
    情報処理方法。
  9. 認識部が、認識対象とする文字に対する複数のメタ情報のうち指定された第1メタ情報を用いて、文字列を含む画像に対して文字認識を実行する認識ステップと、
    更新部が、前記文字認識の確信度が予め定められた条件を満たす場合に、複数の前記メタ情報間の順序を定めた順序情報に従って、前記第1メタ情報を第2メタ情報に更新する更新ステップと、を含み、
    前記認識ステップは、更新された前記第2メタ情報を用いて前記文字認識を実行し、
    前記認識ステップは、N個(Nは2以上の整数)の前記順序情報で定められるN個のメタ情報のそれぞれから指定されたN個の第1メタ情報を用いて前記文字認識を実行する、
    情報処理方法。
  10. 認識部が、認識対象とする文字に対する複数のメタ情報のうち指定された第1メタ情報を用いて、文字列を含む画像に対して文字認識を実行する認識ステップと、
    更新部が、前記文字認識の確信度が予め定められた条件を満たす場合に、複数の前記メタ情報間の順序を定めた順序情報に従って、前記第1メタ情報を第2メタ情報に更新する更新ステップと、を含み、
    前記認識ステップは、更新された前記第2メタ情報を用いて前記文字認識を実行し、
    前記順序情報は、複数の前記メタ情報をノードとし、重みが付与された有向エッジで前記ノード間を接続した有向非巡回グラフで表され、
    前記更新ステップは、前記重みと前記確信度とから求められる評価値に基づいて、前記第1メタ情報を第2メタ情報に更新する、
    情報処理方法。
  11. コンピュータに、
    認識対象とする文字に対する複数のメタ情報のうち指定された第1メタ情報を用いて、文字列を含む画像に対して文字認識を実行する認識ステップと、
    前記文字認識の確信度が予め定められた条件を満たす場合に、複数の前記メタ情報間の順序を定めた順序情報に従って、前記第1メタ情報を第2メタ情報に更新する更新ステップと、を実行させ、
    前記認識ステップは、更新された前記第2メタ情報を用いて前記文字認識を実行し、
    前記順序情報は、複数の前記メタ情報をノードとし、有向エッジで前記ノード間を接続した有向非巡回グラフで表され、
    前記更新ステップは、前記第1メタ情報を、前記第1メタ情報と前記有向エッジで接続される前記第2メタ情報に更新する、
    プログラム。
  12. コンピュータに、
    認識対象とする文字に対する複数のメタ情報のうち指定された第1メタ情報を用いて、文字列を含む画像に対して文字認識を実行する認識ステップと、
    前記文字認識の確信度が予め定められた条件を満たす場合に、複数の前記メタ情報間の順序を定めた順序情報に従って、前記第1メタ情報を第2メタ情報に更新する更新ステップと、を実行させ、
    前記認識ステップは、更新された前記第2メタ情報を用いて前記文字認識を実行し、
    前記認識ステップは、N個(Nは2以上の整数)の前記順序情報で定められるN個のメタ情報のそれぞれから指定されたN個の第1メタ情報を用いて前記文字認識を実行する、
    プログラム。
  13. コンピュータに、
    認識対象とする文字に対する複数のメタ情報のうち指定された第1メタ情報を用いて、文字列を含む画像に対して文字認識を実行する認識ステップと、
    前記文字認識の確信度が予め定められた条件を満たす場合に、複数の前記メタ情報間の順序を定めた順序情報に従って、前記第1メタ情報を第2メタ情報に更新する更新ステップと、を実行させ、
    前記認識ステップは、更新された前記第2メタ情報を用いて前記文字認識を実行し、
    前記順序情報は、複数の前記メタ情報をノードとし、重みが付与された有向エッジで前記ノード間を接続した有向非巡回グラフで表され、
    前記更新ステップは、前記重みと前記確信度とから求められる評価値に基づいて、前記第1メタ情報を第2メタ情報に更新する、
    プログラム。
  14. 認識対象とする文字に対する複数のメタ情報間の順序を定めた順序情報を記憶する記憶部と、
    複数の前記メタ情報のうち指定された第1メタ情報と、前記順序情報および前記第1メタ情報に基づいて選択された1以上の第2メタ情報と、を用いて、文字列を含む画像に対して文字認識を実行する認識部と、
    前記第1メタ情報に対する前記文字認識の確信度と、前記第2メタ情報に対する前記文字認識の確信度と、に基づいて、前記画像に含まれる前記文字列のメタ情報を推定する推定部と、を備え、
    前記記憶部は、N個(Nは2以上の整数)の順序情報を記憶し、
    前記認識部は、N個の前記順序情報で定められるN個のメタ情報のそれぞれから指定されたN個の第1メタ情報を用いて前記文字認識を実行する、
    報処理装置。
  15. 前記推定部は、前記第1メタ情報に対する前記文字認識の確信度および前記第2メタ情報に対する前記文字認識の確信度のうち、他の確信度より良い確信度に対応するメタ情報を、前記画像に含まれる前記文字列のメタ情報として推定する、
    請求項14に記載の情報処理装置。
  16. 前記認識部は、前記メタ情報と前記画像とを入力し、認識結果を出力するニューラルネットワークを用いて前記文字認識を実行する、
    請求項14に記載の情報処理装置。
  17. 認識部が、認識対象とする文字に対する複数のメタ情報のうち指定された第1メタ情報と、複数の前記メタ情報の順序を定めた順序情報および前記第1メタ情報に基づいて選択された1以上の第2メタ情報と、を用いて、文字列を含む画像に対して文字認識を実行する認識ステップと、
    推定部が、前記第1メタ情報に対する前記文字認識の確信度と、前記第2メタ情報に対する前記文字認識の確信度と、に基づいて、前記画像に含まれる前記文字列のメタ情報を推定する推定ステップと、を含み、
    前記認識ステップは、N個(Nは2以上の整数)の前記順序情報で定められるN個のメタ情報のそれぞれから指定されたN個の第1メタ情報を用いて前記文字認識を実行する、
    報処理方法。
  18. コンピュータに、
    認識対象とする文字に対する複数のメタ情報のうち指定された第1メタ情報と、複数の前記メタ情報の順序を定めた順序情報および前記第1メタ情報に基づいて選択された1以上の第2メタ情報と、を用いて、文字列を含む画像に対して文字認識を実行する認識ステップと、
    前記第1メタ情報に対する前記文字認識の確信度と、前記第2メタ情報に対する前記文字認識の確信度と、に基づいて、前記画像に含まれる前記文字列のメタ情報を推定する推定ステップと、を実行させ
    前記認識ステップは、N個(Nは2以上の整数)の前記順序情報で定められるN個のメタ情報のそれぞれから指定されたN個の第1メタ情報を用いて前記文字認識を実行する、
    ログラム。
JP2020052183A 2020-03-24 2020-03-24 情報処理装置、情報処理方法、プログラムおよび順序情報 Active JP6798055B1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2020052183A JP6798055B1 (ja) 2020-03-24 2020-03-24 情報処理装置、情報処理方法、プログラムおよび順序情報
CN202180020395.XA CN115298707A (zh) 2020-03-24 2021-02-26 信息处理装置、信息处理方法、程序及顺序信息
PCT/JP2021/007410 WO2021192818A1 (ja) 2020-03-24 2021-02-26 情報処理装置、情報処理方法、プログラムおよび順序情報
US17/942,858 US20230005282A1 (en) 2020-03-24 2022-09-12 Information processing apparatus, information processing method, computer program product, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020052183A JP6798055B1 (ja) 2020-03-24 2020-03-24 情報処理装置、情報処理方法、プログラムおよび順序情報

Publications (2)

Publication Number Publication Date
JP6798055B1 true JP6798055B1 (ja) 2020-12-09
JP2021152689A JP2021152689A (ja) 2021-09-30

Family

ID=73646807

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020052183A Active JP6798055B1 (ja) 2020-03-24 2020-03-24 情報処理装置、情報処理方法、プログラムおよび順序情報

Country Status (4)

Country Link
US (1) US20230005282A1 (ja)
JP (1) JP6798055B1 (ja)
CN (1) CN115298707A (ja)
WO (1) WO2021192818A1 (ja)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6118080A (ja) * 1984-07-05 1986-01-25 Fujitsu Ltd 文字認識装置
JPH06150061A (ja) * 1992-11-04 1994-05-31 Sharp Corp 文書認識装置
JPH08190603A (ja) * 1995-01-10 1996-07-23 Sanyo Electric Co Ltd 文字認識装置及びその候補文字表示方法
JP2003044785A (ja) * 2001-07-30 2003-02-14 Toshiba Corp 文字認識装置、文字認識方法およびプログラム
JP2013164728A (ja) * 2012-02-10 2013-08-22 Canon Inc 画像内の文字に係る言語を判定する情報処理装置

Also Published As

Publication number Publication date
WO2021192818A1 (ja) 2021-09-30
JP2021152689A (ja) 2021-09-30
CN115298707A (zh) 2022-11-04
US20230005282A1 (en) 2023-01-05

Similar Documents

Publication Publication Date Title
JP6492239B2 (ja) テキスト入力のためのシステム及び方法
JP5405586B2 (ja) 手書き文字認識方法および手書き文字認識装置
JP2019091434A (ja) 複数のディープ・ラーニング・ニューラル・ネットワークを動的に重み付けすることによるフォント認識の改善
CN111444320A (zh) 文本检索方法、装置、计算机设备和存储介质
US9836646B2 (en) Method for identifying a character in a digital image
JP2009282686A (ja) 分類モデル学習装置および分類モデル学習方法
JP2006031228A (ja) 形態素解析装置、方法及びプログラム
JP7149721B2 (ja) 情報処理装置、文字認識エンジン最適化方法及びプログラム
US9280725B2 (en) Information processing apparatus, information processing method, and non-transitory computer readable medium
CN109885180B (zh) 纠错方法和装置、计算机可读介质
JP2018194919A (ja) 学習プログラム、学習方法及び学習装置
JP2019169025A (ja) 情報処理装置、文字認識エンジン選択方法及びプログラム
CN111046659A (zh) 上下文信息生成方法、上下文信息生成装置及计算机可读记录介质
JP2019204214A (ja) 学習装置、学習方法、プログラム及び推定装置
CN109858031B (zh) 神经网络模型训练、上下文预测方法及装置
EP2138959A1 (en) Word recognizing method and word recognizing program
CN112000495B (zh) 用于兴趣点信息管理的方法、电子设备和存储介质
US11797551B2 (en) Document retrieval apparatus, document retrieval system, document retrieval program, and document retrieval method
JP6798055B1 (ja) 情報処理装置、情報処理方法、プログラムおよび順序情報
WO2016181470A1 (ja) 認識装置、認識方法およびプログラム
US7756872B2 (en) Searching device and program product
CN116433474A (zh) 模型训练方法、字体迁移方法、装置及介质
JPWO2019171537A1 (ja) 意味推定システム、方法およびプログラム
CN115917527A (zh) 文档检索装置、文档检索系统、文档检索程序、以及文档检索方法
JP6320089B2 (ja) 認識装置、認識方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200324

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200324

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200813

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200817

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201009

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201020

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201118

R150 Certificate of patent or registration of utility model

Ref document number: 6798055

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150