JP7172351B2 - 文字列認識装置及び文字列認識プログラム - Google Patents
文字列認識装置及び文字列認識プログラム Download PDFInfo
- Publication number
- JP7172351B2 JP7172351B2 JP2018177565A JP2018177565A JP7172351B2 JP 7172351 B2 JP7172351 B2 JP 7172351B2 JP 2018177565 A JP2018177565 A JP 2018177565A JP 2018177565 A JP2018177565 A JP 2018177565A JP 7172351 B2 JP7172351 B2 JP 7172351B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- gaze
- module
- character string
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
- G06V30/18019—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
- G06V30/18038—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
- G06V30/18048—Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
- G06V30/18057—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Character Discrimination (AREA)
- Image Analysis (AREA)
Description
非特許文献1~6には、機械学習の技術が開示されている。
ラベル依存の文字列認識技術に比べて、本発明は、文字列認識の精度を向上させることができる文字列認識装置及び文字列認識プログラムを提供することを目的としている。
請求項1の発明は、認識対象の文字列である入力パターン内の部分パターンの系列に対して算出した単文字確信度と、再帰的ニューラルネットワークで算出した注視情報から、注視単文字確信度を算出し、認識結果であるラベル間でパラメータを共有した予測器を有しており、前記予測器は、前記注視単文字確信度を特徴量のひとつとして利用する、文字列認識装置である。
モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するという意味である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係、ログイン等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態にしたがって、又はそれまでの状況・状態にしたがって定まることの意を含めて用いる。「予め定められた値」が複数ある場合は、それぞれ異なった値であってもよいし、2以上の値(もちろんのことながら、全ての値も含む)が同じであってもよい。また、「Aである場合、Bをする」という記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。また、「A、B、C」等のように事物を列挙した場合は、断りがない限り例示列挙であり、その1つのみを選んでいる場合(例えば、Aのみ)を含む。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスクドライブ、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
文字入力手段、ニューラルネットワーク、認識結果出力手段よりなる文字認識装置で、ニューラルネットワークを構成する各々のノードが内部にフィードバックを持つリカレント型ニューラルネットワークである(特許文献1参照)。
例えば、ニューラルネットワークを用いたオンンライン文字認識装置において、a)認識対象文字の時系列データを生成する文字入力手段を備え、b)前記ニューラルネットワークは、内部状態値を記憶する記憶手段、記憶されている内部状態値と外部入力値により内部状態値を更新する更新手段、及び内部状態値から外部出力値を生成する生成手段を持つ神経細胞様素子から構成され、c)前記時系列データを前記ニューラルネットワークの入力として用いている。
図4は、単文字の認識の概要を示す説明図である。図4(a)の例に示すように、単文字認識モジュール400は、画像(単文字)410を受け付け、ラベル420を出力する。例えば、図4(b)に示すように「富」という画像(単文字)412を受け付け、図4(c)に示すように「富」という文字コードであるラベル422を出力する。
文字列認識は、図4に概要を示すような単文字の認識と異なり、入力に不特定多数の単文字が含まれるため、出力すべき文字数が曖昧(特定できない)である。特に、日本語のように単文字が偏や旁からなる言語は単文字どうしの境界が曖昧であるため認識すべき単文字の領域の特定が困難である。ゆえに、精度の高い単文字認識器があるだけでは精度の高い文字列認識の実現は困難といえる。
まず、Emb_e510が入力である文字列画像である画像(文字列)312の部分画像508から入力特徴量512を算出する。いわゆる特徴量抽出処理を行う。ここで、部分画像508は、画像(文字列)312内において、固定サイズの領域を文字列方向へ逐次移動して得られる部分領域を切り出した画像である。
次に、符号化モジュール515が入力特徴量512から入力系列特徴量522を算出する。符号化モジュール515はCell_e520を単位とする再帰的な処理である。すなわち、図5におけるCell_e520(Cell_e520a等)は全て共通のモジュールであり、個々のCell_e520は対応する入力特徴量512と直前の自身の出力(入力系列特徴量522)を入力として、続く入力系列特徴量522を算出する。この様子を図6に示す。図6は、符号化モジュール515内の再帰的な処理の最小単位における処理例を示す説明図である。Cell_e520は、入力特徴量512、(直前の)入力系列特徴量522-1を受け付け、入力系列特徴量522-2を出力する。この入力系列特徴量522-2を、Cell_e520自身が(直前の)入力系列特徴量522-1として受け付け、次の入力系列特徴量522-2を出力する。この処理を画像(文字列)312内の最後の部分画像508まで続けることになる。
このように過去の情報を利用することで他の部分画像508の情報を加味したより高精度な認識が可能となる。なお、再帰的な処理におけるCell_e520への初期の入力は入力系列特徴量と同じサイズを持つゼロ等で初期化された数値ベクトルである。なお、Cell_e520(また、後述のCell_d560)としては、Long Short Term Memory(LSTM)(非特許文献2参照)やGated Recurrent Unit(GRU)(非特許文献4参照)等が提案されている。
続いて、符号化モジュール515(Cell_e520)が最後に算出した入力系列特徴量522から復号モジュール550が出力系列特徴量562を算出する。復号モジュール550も符号化モジュール515と同様の再帰的な処理を行い、図5の例におけるCell_d560(Cell_d560a等)は全て共通のモジュールである。Cell_d560は、対応する出力特徴量557と出力系列特徴量562から、次の出力系列特徴量562を出力する。そして、Pred565が、対応する出力系列特徴量562から出力ラベル567を出力する。なお、図5におけるPred565(Pred565a等)は全て共通のモジュールである。また、出力特徴量557は、Emb_d555が直前の出力ラベル567から算出する。なお、図5におけるEmb_d555(Emb_d555a等)は全て共通のモジュールである。出力系列590の先頭には直前の出力ラベル567がないため、始端用のラベル<bos>(beginning of Strings)を設定する。また、復号モジュール550の再帰的な処理は、終端用のラベル<eos>(end of Strings)の出力があったときに停止する。
まず、図5の例と同様に、符号化モジュール515(Cell_e520)は入力系列特徴量522を算出する。次に、復号モジュール550では、Align710が全ての入力系列特徴量522と、直前の出力系列特徴量562から、続く出力ラベル567を算出するために注視すべき領域を表す注視情報712を算出する。注視情報712の例を図8に示す。横軸810として画像(文字列)312におけるi番目の入力系列特徴量522を示し、縦軸820として注視情報強度を示している。そして、注視情報830のグラフは、j番目の出力系列ラベルのための注視情報712である。つまり、注視情報830は、j番目の出力系列ラベルの算出のためにi番目の入力列特徴量をどの程度利用するか、に相当する量を要素とするベクトルである。
次に、Attention720が、注視情報712と入力系列特徴量522の線型結合として注視系列特徴量722を算出する。Cell_d560bは、直前の出力系列特徴量562と、直前の出力ラベル567から算出された出力特徴量557と注視系列特徴量722を連結した特徴量から、続く出力系列特徴量562を算出する。Align710とAttention720は図5の例と同様にニューラルネットワークであるため、注視技術利用の場合も、図5と同様にSeq2Seqのパラメータ学習が可能である。
なお、再帰的ニューラルネットワークを利用し、特に注視処理を行う先行技術として特許文献1があげられるが、これはSeq2Seqの構成でなく、予測器の学習を行わない。また、学習のために文字どうしの境界の情報が必要となる。
(1)部分画像に対して、画像が出力候補のラベルである可能性の高さを表す数値ベクトル(以下、単文字確信度ともいう)を算出する。
(2)注視情報を利用して、入力特徴量方向について、単文字確信度を切り出す値(以下、注視単文字確信度ともいう)を算出する。
(3)注視単文字確信度とラベル間でパラメータを共有した予測器により、ラベルを算出する。
図9の例は、本実施の形態の中心的な構成例についての概念的なモジュール構成図である。なお、Align910は、図7に例示のAlign710に相当し、Attention920a、Attention´920bは、図7に例示のAttention720に相当し、Cell_d960は、図7に例示のCell_d560に相当し、Pred´965は、図7に例示のPred565に相当する。
図9は、復号モジュール(図1の例に示す復号モジュール160)の再帰的な処理についてひとつのラベル分の処理を取り出したものである。なお、各記号の意味は以下の表1の通りである。
本実施の形態である文字列認識装置100は、文字列の認識機能を有しており、図1の例に示すように、符号化モジュール110、系列認識パラメータ記憶モジュール120、注視情報算出モジュール130、注視処理(1)モジュール140、注視処理(2)モジュール150、復号モジュール160、ラベル非依存予測モジュール170を有している。全体は、前述したように、Seq2Seq等の再帰的ニューラルネットワークによって構成されている。
系列認識パラメータ記憶モジュール120は、符号化モジュール110、復号モジュール160、ラベル非依存予測モジュール170と接続されている。
注視情報算出モジュール130は、符号化モジュール110、注視処理(1)モジュール140、注視処理(2)モジュール150、復号モジュール160と接続されている。注視情報算出モジュール130は、符号化モジュール110より入力系列特徴量112を受け取り、注視処理(1)モジュール140、注視処理(2)モジュール150に注視情報132を渡す。
注視処理(1)モジュール140は、符号化モジュール110、注視情報算出モジュール130、復号モジュール160と接続されている。注視処理(1)モジュール140は、注視情報算出モジュール130より注視情報132を受け取り、復号モジュール160に注視系列特徴量142を渡す。
なお、注視単文字確信度152に非文字用の値を追加し、ラベル非依存予測モジュール170が利用する特徴量に非文字であるか否かを示す非文字用情報を追加し、その特徴量のうち非文字用の注視確信度を引用するものは非文字であることを示す非文字用情報とする。なお、非文字用情報として、前述の始端用のラベル<bos>、終端用のラベル<eos>がある。
また、注視処理(2)モジュール150は、単文字特徴量から、前記注視単文字確信度を算出する
ラベル非依存予測モジュール170は、系列認識パラメータ記憶モジュール120、注視処理(2)モジュール150、復号モジュール160と接続されている。ラベル非依存予測モジュール170は、注視処理(2)モジュール150より注視単文字確信度152を、復号モジュール160より出力系列特徴量162を受け取り、出力系列172を出力する。ラベル非依存予測モジュール170は、認識結果であるラベル間でパラメータを共有して、出力系列172を出力する。その際、ラベル非依存予測モジュール170は、注視単文字確信度152を特徴量のひとつとして利用する。
また、符号化モジュール110は、図5の例に示す一方向型のものの他にも、双方向型であるBidirectional RNN(非特許文献5参照)や、積層型であるPyramidal RNN(非特許文献6参照)であってもよい。このように、過去の情報を利用することで他の部分画像の情報を加味したより高精度な認識が可能となる。
また同様に、注視処理(2)モジュール150が、出力系列特徴量162を数4のように算出する。
文字列認識装置1100は、窓処理モジュール1110、符号化モジュール110、系列認識パラメータ記憶モジュール120、注視情報算出モジュール130、注視処理(1)モジュール140、注視処理(2)モジュール150、復号モジュール160、ラベル非依存予測モジュール170、統計情報記憶モジュール1180を有している。
文字列認識装置1100は、学習済みの単文字認識器(窓処理モジュール1110)と統計情報(統計情報記憶モジュール1180)を利用する例を示している。
符号化モジュール110は、窓処理モジュール1110、系列認識パラメータ記憶モジュール120、注視情報算出モジュール130、注視処理(1)モジュール140と接続されている。符号化モジュール110は、窓処理モジュール1110より単文字特徴量108を受け取り、注視情報算出モジュール130に入力系列特徴量112を渡す。
系列認識パラメータ記憶モジュール120は、符号化モジュール110、復号モジュール160、ラベル非依存予測モジュール170と接続されている。
注視情報算出モジュール130は、符号化モジュール110、注視処理(1)モジュール140、注視処理(2)モジュール150、復号モジュール160と接続されている。注視情報算出モジュール130は、符号化モジュール110より入力系列特徴量112を受け取り、注視処理(1)モジュール140、注視処理(2)モジュール150に注視情報132を渡す。
注視処理(1)モジュール140は、符号化モジュール110、注視情報算出モジュール130、復号モジュール160と接続されている。注視処理(1)モジュール140は、注視情報算出モジュール130より注視情報132を受け取り、復号モジュール160に注視系列特徴量142を渡す。
注視処理(2)モジュール150は、窓処理モジュール1110、注視情報算出モジュール130、ラベル非依存予測モジュール170と接続されている。注視処理(2)モジュール150は、窓処理モジュール1110より単文字確信度148、注視情報算出モジュール130より注視情報132を受け取り、ラベル非依存予測モジュール170に注視単文字確信度152を渡す。
復号モジュール160は、系列認識パラメータ記憶モジュール120、注視情報算出モジュール130、注視処理(1)モジュール140、ラベル非依存予測モジュール170と接続されている。復号モジュール160は、注視処理(1)モジュール140より注視系列特徴量142を受け取り、ラベル非依存予測モジュール170に出力系列特徴量162を渡す。復号モジュール160は、
ラベル非依存予測モジュール170は、系列認識パラメータ記憶モジュール120、注視処理(2)モジュール150、復号モジュール160、統計情報記憶モジュール1180と接続されている。ラベル非依存予測モジュール170は、注視処理(2)モジュール150より注視単文字確信度152を、復号モジュール160より出力系列特徴量162を受け取り、出力系列172を出力する。
統計情報記憶モジュール1180は、ラベル非依存予測モジュール170と接続されている。
単文字認識器(窓処理モジュール1110)は、特徴量抽出モジュール1210、単文字確信度算出モジュール1220を有している。特徴量抽出モジュール1210は、単文字確信度算出モジュール1220と接続されている。特徴量抽出モジュール1210は、入力画像1108を受け付け、単文字特徴量108を出力する。
単文字確信度算出モジュール1220は、特徴量抽出モジュール1210と接続されている。特徴量抽出モジュール1210は、単文字確信度148を出力する。単文字確信度算出モジュール1220は、単文字特徴量108から、単文字確信度148を算出する。単文字確信度算出モジュール1220を畳み込みニューラルネットワークで構成してもよい。
以下、文字列認識装置1100について、図1の例に示す文字列認識装置100と異なる部分を中心に説明する。
まず、窓処理モジュール1110が学習済みの単文字認識器により単文字特徴量108と単文字確信度148を算出する。具体的には、入力画像1108について固定サイズの領域を文字列方向へ逐次移動して得られる部分画像列に対して単文字特徴量108と単文字確信度148を算出する。もし、単文字認識器が畳み込みニューラルネットワーク(非特許文献1、非特許文献3参照)である場合、予め部分画像列を作成するのではなく、画像全体に対する畳み込み処理から得られる特徴量画像を部分領域に分ける処理順が計算速度と容量の観点から効率がよい。
また、ラベル非依存予測モジュール170は、直前のラベルを利用する。さらに、非文字用フラグ(「非文字であるか否かを示す非文字用情報」の一例)を利用する。なお、非文字とは<bos>や<eos>を指す。非文字フラグを利用することで非文字か否かの識別が容易となる。この場合は、数7を用いて特徴量を算出する。
文字列認識装置1100は、単文字認識器を含むため、予め単文字特徴量108を算出しておく必要がない。また、非文字フラグと統計情報記憶モジュール1180内の統計情報を利用するため、より精度の高い文字列認識を実現する。
そして、表示モジュールは、出力系列172だけでなく、注視情報132と、注視単文字確信度152を、それぞれ出力系列172内の各文字に対応させて表示するようにしてもよい。例えば、図13、図14の例に示す表示を行う。
つまり、注視単文字確信度152を利用し、文字認識結果(出力系列172)を分析する上で有用な可視化の例を説明する。データエントリー業務等では、文字列認識結果を分析し、必要に応じて誤りの検出・訂正を人間が行う作業がある。このとき、図13、図14の例に示すように、入力画像と出力系列に加え、注視情報、注視単文字確信度があることで、より効率的な分析が可能となる。さらに、出力確信度を含めて表示するようにしてもよい。なお、出力確信度とは、数6のejk、又は、それを正規化した値である。
注視情報により、作業者があるラベルが入力画像のどの位置に相当するかを判別することを可能にする。注視単文字確信度は単文字としての認識の確信度であるのに対して、出力確信度は前後関係を加味した認識の確信度である。この違いを利用して作業者は認識結果を多角的に分析することが可能となる。
また、図14の例では、上から順に、ラベルごとに区別して、(a)入力画像上での注視情報、(b)出力系列、(c)注視単文字確信度、(d)出力確信度を表示している。ここでの注視情報は、入力画像上において濃淡で表示している。また、作業者が選択した部分のみ強調されて表示するようにしてもよい。図14の例では、マウスカーソル1410のある位置の「士」について、出力系列の枠を実線(他の出力系列は点線の枠)にし、注視情報を入力画像内の濃淡で表示し(該当部分画像を白で表示し)、注視単文字確信度と出力確信度を太字にしている。
なお、図15に示すハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図15に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)や再構成可能な集積回路(field-programmable gate array:FPGA)等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続している形態でもよく、さらに図15に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、特に、パーソナルコンピュータの他、ロボット、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通等のために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD-R、DVD-RW、DVD-RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD-ROM)、CDレコーダブル(CD-R)、CDリライタブル(CD-RW)等、ブルーレイ・ディスク(Blu-ray(登録商標) Disc)、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラムの全体又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、又は無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分若しくは全部であってもよく、又は別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して記録されていてもよい。また、圧縮や暗号化等、復元可能であればどのような態様で記録されていてもよい。
108…単文字特徴量
110…符号化モジュール
112…入力系列特徴量
120…系列認識パラメータ記憶モジュール
130…注視情報算出モジュール
132…注視情報
140…注視処理(1)モジュール
142…注視系列特徴量
148…単文字確信度
150…注視処理(2)モジュール
152…注視単文字確信度
160…復号モジュール
162…出力系列特徴量
170…ラベル非依存予測モジュール
172…出力系列
300…文字認識モジュール
400…単文字認識モジュール
508…部分画像
510…Emb_e
512…入力特徴量
515…符号化モジュール
520…Cell_e
522…入力系列特徴量
522-1…(直前の)入力系列特徴量
522-2…入力系列特徴量
550…復号モジュール
555…Emb_d
557…出力特徴量
560…Cell_d
562…出力系列特徴量
565…Pred
567…出力ラベル
590…出力系列
710…Align
712…注視情報
720…Attention
722…注視系列特徴量
910…Align
920…Attention
960…Cell_d
965…Pred´
1000…単文字確信度
1010…ラベル
1020…確信度
1100…文字列認識装置
1108…入力画像
1110…窓処理モジュール
1172…出力系列
1180…統計情報記憶モジュール
1210…特徴量抽出モジュール
1220…単文字確信度算出モジュール
Claims (9)
- 認識対象の文字列である入力パターン内の部分パターンの系列に対して算出した単文字確信度と、
再帰的ニューラルネットワークで算出した注視情報から、
注視単文字確信度を算出し、
認識結果であるラベル間でパラメータを共有した予測器
を有しており、
前記予測器は、前記注視単文字確信度を特徴量のひとつとして利用する、
文字列認識装置。 - 前記注視単文字確信度に非文字用の値を追加し、
前記予測器が利用する特徴量に非文字であるか否かを示す非文字用情報を追加し、
前記特徴量のうち非文字用の注視確信度を引用するものは非文字であることを示す非文字用情報とする、
請求項1に記載の文字列認識装置。 - 前記入力パターンの部分パターンに対して算出した単文字特徴量の系列を、前記再帰的ニューラルネットワークの符号化部の入力とする、
請求項1又は請求項2に記載の文字列認識装置。 - 前記単文字特徴量から、前記注視単文字確信度を算出する単文字認識器
をさらに有する請求項3に記載の文字列認識装置。 - 前記単文字認識器が畳み込みニューラルネットワークである、
請求項4に記載の文字列認識装置。 - 認識結果を確認するための表示を行う表示手段
をさらに有し、
前記表示手段は、前記注視情報と、前記注視単文字確信度を、それぞれ表示する、
請求項1、請求項2、請求項3、請求項4、請求項5のいずれか1項に記載の文字列認識装置。 - 前記入力パターンの部分パターンとして、文字列が記載された入力画像の部分画像を対象とする、
請求項1に記載の文字列認識装置。 - 前記入力パターンの部分パターンとして、手書き入力パターンの部分パターンを対象とする、
請求項1に記載の文字列認識装置。 - コンピュータを、
認識対象の文字列である入力パターン内の部分パターンの系列に対して算出した単文字確信度と、
再帰的ニューラルネットワークで算出した注視情報から、
注視単文字確信度を算出し、
認識結果であるラベル間でパラメータを共有した予測器
として機能させ、
前記予測器は、前記注視単文字確信度を特徴量のひとつとして利用する、
文字列認識プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018177565A JP7172351B2 (ja) | 2018-09-21 | 2018-09-21 | 文字列認識装置及び文字列認識プログラム |
US16/365,688 US11126883B2 (en) | 2018-09-21 | 2019-03-27 | Character string recognition apparatus, and non-transitory computer readable medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018177565A JP7172351B2 (ja) | 2018-09-21 | 2018-09-21 | 文字列認識装置及び文字列認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020047213A JP2020047213A (ja) | 2020-03-26 |
JP7172351B2 true JP7172351B2 (ja) | 2022-11-16 |
Family
ID=69883213
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018177565A Active JP7172351B2 (ja) | 2018-09-21 | 2018-09-21 | 文字列認識装置及び文字列認識プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US11126883B2 (ja) |
JP (1) | JP7172351B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10984279B2 (en) * | 2019-06-13 | 2021-04-20 | Wipro Limited | System and method for machine translation of text |
JP6813704B1 (ja) * | 2020-05-15 | 2021-01-13 | 株式会社東芝 | 情報処理装置、情報処理方法、およびプログラム |
CN114359679A (zh) * | 2020-09-30 | 2022-04-15 | 京东方科技集团股份有限公司 | 文本识别方法和文本识别系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016212473A (ja) | 2015-04-30 | 2016-12-15 | 富士ゼロックス株式会社 | 情報処理装置および情報処理プログラム |
JP2017091525A (ja) | 2015-11-03 | 2017-05-25 | バイドゥ・ユーエスエイ・リミテッド・ライアビリティ・カンパニーBaidu USA LLC | 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法 |
JP2017215859A (ja) | 2016-06-01 | 2017-12-07 | 日本電信電話株式会社 | 文字列認識装置、方法、及びプログラム |
JP2018045359A (ja) | 2016-09-13 | 2018-03-22 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0644409A (ja) | 1992-07-27 | 1994-02-18 | Seiko Epson Corp | 文字認識装置 |
US5418862A (en) * | 1992-08-10 | 1995-05-23 | United Parcel Service Of America | Method and apparatus for detecting artifact corners in two-dimensional images |
US5880451A (en) * | 1997-04-24 | 1999-03-09 | United Parcel Service Of America, Inc. | System and method for OCR assisted bar code decoding |
JP3246432B2 (ja) * | 1998-02-10 | 2002-01-15 | 株式会社日立製作所 | 宛名読取り装置および郵便物等区分機 |
US20060008148A1 (en) * | 2004-07-06 | 2006-01-12 | Fuji Photo Film Co., Ltd. | Character recognition device and method |
JP4158937B2 (ja) * | 2006-03-24 | 2008-10-01 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 字幕修正装置 |
JP5029030B2 (ja) * | 2007-01-22 | 2012-09-19 | 富士通株式会社 | 情報付与プログラム、情報付与装置、および情報付与方法 |
JP5853488B2 (ja) * | 2011-08-19 | 2016-02-09 | 富士ゼロックス株式会社 | 情報処理装置およびプログラム |
JP5774558B2 (ja) * | 2012-08-10 | 2015-09-09 | 株式会社東芝 | 手書き文書処理装置、方法及びプログラム |
JP5962419B2 (ja) * | 2012-10-15 | 2016-08-03 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
US10564714B2 (en) * | 2014-05-09 | 2020-02-18 | Google Llc | Systems and methods for biomechanically-based eye signals for interacting with real and virtual objects |
JP6342298B2 (ja) * | 2014-10-31 | 2018-06-13 | 株式会社東芝 | 文字認識装置、画像表示装置、画像検索装置、文字認識方法およびプログラム |
US10235332B2 (en) * | 2015-04-09 | 2019-03-19 | Veritoll, Llc | License plate distributed review systems and methods |
JP2017151493A (ja) * | 2016-02-22 | 2017-08-31 | 富士ゼロックス株式会社 | 画像処理装置、画像読み取り装置及びプログラム |
JP6679350B2 (ja) * | 2016-03-09 | 2020-04-15 | キヤノン株式会社 | 情報処理装置、プログラム及び情報処理方法 |
JP6801637B2 (ja) * | 2017-12-08 | 2020-12-16 | 京セラドキュメントソリューションズ株式会社 | 画像形成装置 |
JP7234495B2 (ja) * | 2018-01-25 | 2023-03-08 | 富士フイルムビジネスイノベーション株式会社 | 画像処理装置及びプログラム |
-
2018
- 2018-09-21 JP JP2018177565A patent/JP7172351B2/ja active Active
-
2019
- 2019-03-27 US US16/365,688 patent/US11126883B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016212473A (ja) | 2015-04-30 | 2016-12-15 | 富士ゼロックス株式会社 | 情報処理装置および情報処理プログラム |
JP2017091525A (ja) | 2015-11-03 | 2017-05-25 | バイドゥ・ユーエスエイ・リミテッド・ライアビリティ・カンパニーBaidu USA LLC | 視覚質問応答用の注目に基づく設定可能な畳み込みニューラルネットワーク(abc−cnn)のシステム及び方法 |
JP2017215859A (ja) | 2016-06-01 | 2017-12-07 | 日本電信電話株式会社 | 文字列認識装置、方法、及びプログラム |
JP2018045359A (ja) | 2016-09-13 | 2018-03-22 | 富士ゼロックス株式会社 | 画像処理装置及び画像処理プログラム |
Non-Patent Citations (1)
Title |
---|
Suman K. Ghosh et al.,Visual attention models for scene text recognition,2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR),米国,IEEE,2017年,p.943-p.948,https://ieeexplore.ieee.org/document/8270089 |
Also Published As
Publication number | Publication date |
---|---|
US20200097750A1 (en) | 2020-03-26 |
JP2020047213A (ja) | 2020-03-26 |
US11126883B2 (en) | 2021-09-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7193252B2 (ja) | 画像の領域のキャプション付加 | |
JP7457647B2 (ja) | 画像コンテンツ認識のための方法およびシステム | |
US20220375225A1 (en) | Video Segmentation Method and Apparatus, Device, and Medium | |
US11461638B2 (en) | Figure captioning system and related methods | |
US20130259378A1 (en) | Methods and systems for assessing the quality of automatically generated text | |
JP7172351B2 (ja) | 文字列認識装置及び文字列認識プログラム | |
RU2641225C2 (ru) | Способ выявления необходимости обучения эталона при верификации распознанного текста | |
US20180260735A1 (en) | Training a hidden markov model | |
WO2023173560A1 (zh) | 基于rpa和ai的文本纠错方法、训练方法及其相关设备 | |
US20210166138A1 (en) | Systems and methods for automatically detecting and repairing slot errors in machine learning training data for a machine learning-based dialogue system | |
CN111079432A (zh) | 文本检测方法、装置、电子设备及存储介质 | |
JP2019153293A (ja) | 人工ニューラルネットワークを用いたocrシステムのための、線認識最大−最小プーリングを用いたテキスト画像の処理 | |
US20240346808A1 (en) | Machine learning training dataset optimization | |
CN112749277A (zh) | 医学数据的处理方法、装置及存储介质 | |
CN112699671B (zh) | 一种语言标注方法、装置、计算机设备和存储介质 | |
Qureshi et al. | A novel offline handwritten text recognition technique to convert ruled-line text into digital text through deep neural networks | |
JP6986287B2 (ja) | 音声における記号シーケンスの推定 | |
US11410443B2 (en) | Labelling training method and system for implementing the same | |
CN113761845A (zh) | 一种文本生成方法、装置、存储介质及电子设备 | |
CN111552780B (zh) | 医用场景的搜索处理方法、装置、存储介质及电子设备 | |
CN114492386A (zh) | 网络文本中药物名称及药物不良反应的联合检测方法 | |
JP5888222B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP6511942B2 (ja) | 情報処理装置および情報処理プログラム | |
RU2777354C2 (ru) | Система распознавания изображения: beorg smart vision | |
US20240282093A1 (en) | Fine-tuning computer vision neural neworks using task rewards |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210906 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220913 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221004 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221017 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7172351 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |