JP2022041468A - 識別方法、情報処理システム、方法、およびプログラム - Google Patents

識別方法、情報処理システム、方法、およびプログラム Download PDF

Info

Publication number
JP2022041468A
JP2022041468A JP2020146682A JP2020146682A JP2022041468A JP 2022041468 A JP2022041468 A JP 2022041468A JP 2020146682 A JP2020146682 A JP 2020146682A JP 2020146682 A JP2020146682 A JP 2020146682A JP 2022041468 A JP2022041468 A JP 2022041468A
Authority
JP
Japan
Prior art keywords
character
unit
characters
adjusted
processing system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020146682A
Other languages
English (en)
Inventor
佳久 石橋
Yoshihisa ISHIBASHI
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Arithmer Inc
Original Assignee
Arithmer Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Arithmer Inc filed Critical Arithmer Inc
Priority to JP2020146682A priority Critical patent/JP2022041468A/ja
Publication of JP2022041468A publication Critical patent/JP2022041468A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

【課題】テキスト画像の文字の形状又は位置のうち少なくともいずれかを適切に調整することを目的とする。【解決手段】文字を構成する画素に関する画素情報に基づいて、前記文字に関する調整量を算出する算出部と、前記調整量に基づいて、前記文字の形状又は位置のうち少なくともいずれかを調整する調整部と、を備える。【選択図】図1

Description

本発明は、識別方法、情報処理システム、方法、およびプログラムに関する。
従来、手書き文字や活字が記入された帳票を、光学文字認識システム(OCR:Optical Character Recognition)で読み取ることにより、所定の文字コードに変換したデジタルデータを生成する手法が知られている。例えば、特許文献1には、機械学習の手法でOCRの認識エンジンを構築することが開示されている。
特許第6474504号
特許文献1に記載の従来システムにおいては、各種認識方法を用いて行方向の手書きの文字列を抽出している。そして、従来システムは、抽出した行方向の文字列を、ニューラルネットワークなどを用いて文字認識している。しかしながら、従来システムでは、抽出した文字列を文字認識するためには大量の学習用データを収集する必要があるが、文字の太さ、大きさ、位置などが一定ではない場合、文字認識の精度を向上させることが困難である。
そこで、本発明は、上記の課題を解決するために、テキスト画像の文字の形状又は文字の位置を適切に調整することにより、文字の認識精度を向上させることを目的とする。
本発明の一態様に係る識別方法は、文字を構成する画素に関する画素情報に基づいて、前記文字に関する調整量を算出する算出部と、前記調整量に基づいて、前記文字の形状又は位置のうち少なくともいずれかを調整する調整部と、を備える情報処理システム、を用いて調整された文字により学習されたモデルにより、入力文字を識別する識別方法であって、前記モデルは、一つの文字に対して複数の条件で調整した複数の文字を用いて学習されたものであり、前記入力文字を含む画像を取得し、前記入力文字を前記情報処理システムにより調整せずに、前記モデルを用いて判別する。
本発明の一態様に係る識別方法は、文字を構成する画素に関する画素情報に基づいて、前記文字に関する調整量を算出する算出部と、前記調整量に基づいて、前記文字の形状又は位置のうち少なくともいずれかを調整する調整部と、を備える情報処理システム、を用いて調整された文字により学習されたモデルにより、入力文字を識別する識別方法であって、前記モデルは、一つの文字に対して所定の条件で調整した一つの文字を用いて学習されたものであり、前記入力文字を含む画像を取得し、前記入力文字を前記情報処理システムにより前記所定の条件で調整し、調整された入力文字を前記モデルを用いて判別する。
本発明の一態様に係る情報処理システムは、文字を構成する画素に関する画素情報に基づいて、前記文字に関する調整量を算出する算出部と、前記調整量に基づいて、前記文字の形状又は位置のうち少なくともいずれかを調整する調整部と、を備える。
本発明の一態様に係る方法は、コンピュータが、文字を構成する画素に関する画素情報に基づいて、前記文字に関する調整量を算出することと、前記調整量に基づいて、前記文字の形状又は位置のうち少なくともいずれかを調整することと、を実行する。
本発明の一態様に係るプログラムは、コンピュータに、文字を構成する画素に関する画素情報に基づいて、前記文字に関する調整量を算出することと、前記調整量に基づいて、前記文字の形状又は位置のうち少なくともいずれかを調整することと、を実行させる。
本発明によれば、テキスト画像の文字の形状又は位置のうち少なくともいずれかを適切に調整することにより、文字の認識精度を向上させることができる。
第1実施形態に係る識別システムの構成を示す図である。 第1特徴値及び第2特徴値を説明するための図である。 第1特徴値及び第2特徴値を説明するための図である。 調整部で太くなるように調整された第1記号を示す図である。 調整部で細くなるように調整された第1記号を示す図である。 調整部で太くなるように調整された第2記号を示す図である。 第1実施形態に係る識別システムの処理手順の一例を示すフロー図である。 第1実施形態に係る識別システムの処理に応じて文字が変化する様子を示す図である。 第2実施形態に係る識別システムにおいて表示領域に表示される文字を示す図である。 第2実施形態に係る識別システムおける文字の座標を説明するための図である。 第2実施形態に係る識別システムにおける移動量を説明するための図である。 第2実施形態に係る識別システムの処理手順の一例を示すフロー図である。 第2実施形態に係る識別システムによって文字の位置が調整される様子を示す図である。 第3実施形態に係る識別システムにおける標準偏差と拡大率を説明するための図である。 第3実施形態に係る識別システムの処理手順の一例を示すフロー図である。 第3実施形態に係る識別システムによって文字の大きさが調整される様子を示す図である。 第4実施形態に係る識別システムの第1の識別方法に関する処理手順の一例を示すフロー図である。 第4実施形態に係る識別システムの第2の識別方法に関する処理手順の一例を示すフロー図である。 コンピュータのハードウェア構成の一例を示す図である。
以下に、本発明の一実施形態における識別システム100について、図面を参照して詳細に説明する。ただし、以下に説明する実施形態は、あくまでも例示であり、以下に明示しない種々の変形や技術の適用を排除する意図はない。すなわち、本発明は、その趣旨を逸脱しない範囲で種々変形し、または各実施例を組み合わせるなどして実施することができる。また、以下の図面の記載において、同一または類似の部分には同一または類似の符号を付して表している。
===第1実施形態に係る識別システム100===
<<構成>>
識別システム100は、イメージスキャナなどの読取器で読み取られた、手書き文字、記号、活字など(以下、「文字」という。)の太さを簡易な方法で推定する。識別システム100は、推定された文字の太さに基づき、当該文字を所定の太さにするための調整量を特定する。これにより、識別システム100は、当該調整量に基づき、当該文字を所定の特徴量で示される太さになるように調整することができる。
識別システム100は、所定の特徴量で示される太さに調整された文字に関するデータにより、判別部110を学習させてもよい。すなわち、識別システム100によれば、判別部110を学習させるための前処理を適切に実行することができる。さらに言うと、調整された認識対象の文字を、学習済みの判別部110に入力することにより、当該認識対象の文字を認識する認識精度が向上する。また、文字列の検出、文字の分類、および文字の強調が容易となる。
ここで、文字の「太さ」とは、例えば文字の所定の方向の画素数やピクセル値の総和などをいう。また、文字の「所定の方向」とは、例えば手書きにおいてペンを動かす方向と直交する方向である。
図1を参照して、識別システム100の構成について説明する。図1は、識別システム100の構成を示す図である。図1に示すように、識別システム100は、例えば、記憶部101と、取得部102と、入力部103と、除去部104と、二値化部105と、特定部106と、算出部107と、判定部108と、調整部109と、判別部110とを含む。
記憶部101は、各種情報を格納する。
取得部102は、読取器などの他の装置から画像情報を取得する。ここで、画像情報は、例えばjpg、tif、gif、pngなどの形式の画像である。また、当該画像情報には、例えば画像における各画素の色値および位置情報が含まれる。
ここで、色値は、例えば、RGB(Red Green Blue)や色相・彩度・明度を示すカラーモデル、グレー値などである。また、位置情報は、例えば当該画像における各画素の座標を含む。以下、一例として、取得部102において文字が含まれる画像情報が取得されるとして説明する。また、以下、単に「文字」という場合、当該「文字」は画像情報に含まれる文字に関する情報を示すことも含む。
入力部103は、例えば、判別部110に、学習用のデータ、調整された各種データなどを入力する。
除去部104は、読取器で読み取られた画像情報に含まれる余白を除去する。余白とは、所定の文字の周辺部における、文字を含まない所定の領域をいう。また、除去部104は、文字の周辺に存する枠線を除去してもよい。これにより、識別システム100において容易に文字を識別できるため、文字の認識精度が向上する。
二値化部105は、読取器で読み取られた画像情報に含まれる文字を二値化する。ここで、二値化とは、例えば、画像の濃淡を、濃淡値として「0」か「1」、例えば「黒」か「白」で表現する処理である。これにより、識別システム100において容易に文字を識別できるため、文字の認識精度が向上する。
特定部106は、所定の文字の第1画素量を特定する。ここで、「文字」には、一つの文字、文字が連なる文字列、及び記号などが含まれる。また、「第1画素量」とは、例えば文字を構成する画素数やピクセル値などである。具体的に述べると、特定部106は、第1画素量が画素数である場合、一つの文字(又は文字列)を構成する画素の総画素数を、一つの文字の第1画素量として特定する。この場合、特定部106は、例えば白色の一つの文字が81個の画素で形成されているとすると、第1画素量を、総画素数である「81」として特定する。
また、特定部106は、第1画素量がピクセル値の場合、白色(ピクセル値「255」)の一つの文字(又は文字列)に含まれるピクセル値の総和を、一つの文字の第1画素量として特定する。この場合、特定部106は、例えば白色の一つの文字が81個の画素で形成されているとすると、第1画素量を、ピクセル値の総和である「20655」(=81個の画素×255ピクセル値)として特定する。
そして、特定部106は、所定の文字の外周部の第2画素量を特定する。ここで、「外周部」とは、例えば文字の輪郭である。「輪郭」とは、例えば文字の縁を形成する画素の集合である。「第2画素量」とは、例えば輪郭を構成する画素数やピクセル値などである。具体的に述べると、特定部106は、第2画素量が画素数である場合、一つの文字(又は文字列)の輪郭を構成する画素の総画素数を、一つの文字の輪郭の第2画素量として特定する。この場合、特定部106は、例えば白色の一つの文字の輪郭が36個の画素で形成されているとすると、第2画素量を総画素数である「36」として特定する。
また、特定部106は、第2画素量がピクセル値の場合、白色(ピクセル値「255」)の一つの文字(又は文字列)の輪郭に含まれるピクセル値の総和を、一つの文字の輪郭の第2画素量として特定する。この場合、特定部106は、例えば白色の一つの文字の輪郭が36個の画素で形成されているとすると、第2画素量をピクセル値の総和である「9180」(=36個の画素×255ピクセル値)として特定する。
算出部107は、第2画素量と所定の値とに基づいて、所定の文字の第1特徴値を算出する。具体的に述べると、算出部107は、例えば、第2画素量を所定の値で除して、第1特徴値を算出する。ここで、「所定の値」とは、例えば「2」であることが望ましい。すなわち、算出部107は、文字の輪郭のピクセル値の総和又は画素数を「2」で除すことにより、文字の略長さを示す第1特徴値を算出する。
そして、算出部107は、第1画素量と第1特徴値とに基づいて、所定の文字の第2特徴値を算出する。具体的に述べると、算出部107は、例えば、第1画素量を第1特徴値で除して、第2特徴値を算出する。すなわち、算出部107は、文字を構成する画素の総画素数又は文字のピクセル値の総和を、文字の略長さを示す第1特徴値で除すことにより、文字の略太さを示す第2特徴値を算出する。
図2A,図2Bを参照して、第1特徴値及び第2特徴値の詳細について説明する。図2A,図2Bは、第1特徴値及び第2特徴値を説明するための図である。図2A,図2Bにおいて、後述する第1記号の長手方向に沿う軸をx軸とし、第1記号の短手方向に沿う軸をy軸とする。
図2Aには、説明の便宜のため、座標の一方の軸に沿って延びる記号(以下、「第1記号」という。)を示す。図2Aでは、理解を助けるために、第1記号の各画素に通し番号を付与している。すなわち、図2Aにおいては、第1記号は「81」個の画素で形成されていることとする。
特定部106は、第1記号を形成する画素の個数(81個)を第1画素量として特定する。そして、特定部106は、第1記号の輪郭を示す符号「1」~「36」の画素(ハッチングされた画素)の個数(36個)を、第2画素量として特定する。
算出部107は、例えば、第2画素量の「36」を「2」で除して、第1記号の略長さ「18」を第1特徴値として算出する。ここで、図2Aにおいて、第1記号の長さは、例えば座標のx軸に沿う方向の画素数として説明する。すなわち、本実施形態においては、第1記号の実際の長さは「17」であるが、一方、算出部107で算出された第1記号の略長さは「18」となる。このように、算出部107で算出される、座標の一方のx軸に沿うように形成される文字や記号の略長さは、実際の文字や記号の長さとほぼ等しい値になる。
算出部107は、例えば、第1画素量「81」を第1特徴値「18」で除して算出される、第1記号の略太さ「4.5」を、第2特徴値として算出する。ここで、第1記号の略太さは、例えば座標のx軸に沿う方向と直交するy軸に沿う方向の画素数である。本実施形態においては、第1記号の実際の太さは「5」であるが、一方、算出部107で算出された第1記号の略太さは「4.5」である。このように、算出部107で算出される、線で形成される文字や記号を示す第1記号の略太さは、実際の第1記号の太さとほぼ等しい値になる。
図2Bでは、座標のx軸と交差する方向に延びる記号(以下、「第2記号」という。)を示す。図2Bでは、理解を助けるために、第2記号の各画素に通し番号を付与している。すなわち、図2Bにおいては、第2記号は、第1記号と同様に、「81」個の画素で形成されていることとする。
特定部106は、例えば第2記号を形成する画素の個数(81個)を第1画素量として特定する。そして、特定部106は、第2記号の輪郭を示す符号「1」~「36」の画素(ハッチングされた画素)の個数(36個)を、第2画素量として特定する。
算出部107は、例えば、第2画素量の「36」を「2」で除して、第2記号の略長さ「18」を第1特徴値として算出する。ここで、第2記号の長さは、例えば座標のx軸と交差する方向であり、第2記号の長手方向の画素数である。本実施形態においては、第2記号の実際の長さは約「24」(=17×1.41)であるが、一方、算出部107で算出された第2記号の略長さは「18」となる。このように、算出部107で算出される第2記号の略長さは、実際の第2記号の長さと乖離する。
算出部107は、例えば、第1記号と同様に、第1画素量「81」を第1特徴値「18」で除して、第2記号の略太さ「4.5」を第2特徴値として算出する。本実施形態においては、図2Bに示すように、実際の第2記号の太さは約「3.5」(=2.5×1.41)である。このように、算出部107で算出される、傾斜する線で形成される文字や記号を示す第2記号の略太さは、実際の第2記号の太さよりも太くなるように算出される。
判定部108は、例えば所定の閾値と第2特徴値との大小関係を判定する。以下、一例として、図2Aの第1記号を用いて、具体的に説明する。判定部108は、例えば、所定の閾値を画素数「7.0」に設定した場合、当該閾値「7.0」と、算出部107で算出された第1記号の第2特徴値「4.5」とを比較する。この場合、判定部108は、第2特徴値(文字の太さ)が閾値よりも小さいと判定する。なお、判定部108で設定される所定の閾値は、画像情報から抽出可能な値と比較可能な値であればよく、例えばピクセル値であってもよい。
調整部109は、例えば、判定部108の判定結果に基づいて、所定の文字を調整する。図3を参照して、調整部109における所定の文字の調整の詳細について説明する。図3Aは、調整部109で文字の太さが太くなるように調整された第1記号を示す図である。図3Bは、調整部109で文字の太さが細くなるように調整された第1記号を概念的に示す。図3Cは、調整部109で文字の太さが太くなるように調整された第2記号を概念的に示す。図3において、第1記号の水平方向に沿う軸をx軸とし、第1記号の垂直方向に沿う軸をy軸とする。
調整部109は、例えば、第1記号の輪郭に沿って画素を追加又は削除して、第1記号の太さを調整する。調整部109は、例えばカーネルを用いた膨張・収縮処理(以下、「太さ調整処理」という。)を実行して、第1記号を膨張又は収縮させる。太さ調整処理では、入力画像及び構造的要素(以下、「設定値」という。)を入力要素とする。
具体的に述べると、調整部109は、判定部108において第2特徴値が所定の閾値よりも小さいと判定された場合、第1記号を膨張(太く)させる。調整部109は、例えば、所定の閾値「7.0」から第2特徴値「4.5」を差し引いて算出された値「2.5」を直近下位の整数にまるめて、設定値「2.0」を算出する。調整部109は、設定値「2.0」に対応するカーネルを画面内において順次移動させる。ここで、設定値「2.0」に対応するカーネルを、例えば(3×3)ピクセルとする。なお、設定値に対応するカーネルは一例を示すものであり、例えば(2×2)ピクセルであってもよい。なお、(m×n)ピクセルとは、例えば、縦にmピクセル、横にnピクセルで構成される領域である。調整部109は、カーネル内において画素値「1」の画素が一つでも含まれる場合、カーネル内の中心の画素の画素値を「1」にする。これにより、図2Aの第1記号に図3Aに示すハッチングした画素が追加される。すなわち、調整部109は、例えば、設定値が「n」のとき((n+1)×(n+1))ピクセルのカーネルで文字をnピクセル膨張(太く)させるよう調整する。これにより、調整部109は、設定値が「2.0」で第1記号の実際の太さが「5.0」であるため、第1記号の太さを画素数「7.0」に調整できる。なお、カーネルのサイズが偶数のときは、カーネルの中心となるピクセルが存在しないため、カーネルの中心領域の右上のピクセルを基準(上述した「中心」)に設定する。
また、調整部109は、判定部108において第2特徴値が所定の閾値よりも大きいと判定された場合、第1記号を収縮(細く)させる。具体的には、調整部109は、例えば、所定の閾値が「3.0」に設定されている場合、所定の閾値「3.0」から第2特徴値「4.5」を差し引いて算出された値の絶対値「1.5」を直近上位の整数にまるめて、設定値「2.0」を算出する。調整部109は、設定値「2.0」に対応するカーネルを画面内において順次移動させる。設定値「2.0」に対応するカーネルとは、例えば、設定値に「1」を加算した値を縦横のピクセル数とした(3×3)ピクセルである。なお、設定値に対応するカーネルは一例を示すものであり、例えば、設定値を縦横のピクセル数としたカーネルを採用してもよい。調整部109は、カーネル内において画素値「0」の画素が一つでも含まれる場合、カーネル内の中心の画素の画素値を「0」にする。これにより、図3Bの第1記号から図に示すハッチングした画素が削除される。すなわち、調整部109は、例えば、設定値が「n」のとき((n+1)×(n+1))ピクセルのカーネルで文字をnピクセル収縮(細く)させるよう調整する。これにより、調整部109は、設定値が「2.0」で第1記号の実際の太さが「5.0」であるため、第1記号の太さを画素数「3.0」に調整できる。
また、仮に、第1記号及び第2記号で一つの文字又は文字列が形成されている場合、調整部109は、例えば、第2記号に対しても、太さ調整処理を実行し、第2記号を膨張又は収縮させて、第2記号の太さを調整する。具体的に述べると、調整部109は、図2Bの第2記号に図3Cに示すハッチングした画素を追加する。これにより、調整部109において、第2記号の太さが画素数約「6.3」(=4.5×1.41)に調整される。
すなわち、識別システム100では、第2記号のように、算出部107で算出される第2特徴値が実際の太さを示す値よりも著しく大きい場合において、文字又は文字列の全体の太さを、第2特徴値と所定の閾値との関係により算出される設定値に基づいて調整すると、その全体の太さが略均一になるよう調整される。
なお、調整部109は、上述した太さ調整処理を実行することに限定されず、他の処理方法によって、所定の文字の太さを調整してもよい。例えば、調整部109は、カーネル内において画素値「1」の画素が一つでも含まれる場合、カーネル内の全ての画素の画素値を「1」に統一してもよい。この場合、設定値が「2n」のとき((n+1)×(n+1))ピクセルのカーネルで文字を膨張させると、当該文字が約2nピクセル太くなる。収縮の場合は、当該文字が約2nピクセル細くなる。
判別部110は、例えば、入力部103を介して、調整部109で調整された文字(以下、「調整文字」という。)と、調整文字に対応する標準文字とを入力データとして、ニューラルネットワーク(モデル)により学習される。判別部110には、例えば、入力部103を介して、調整部109で調整された、学習データ、検証データ、及びテストデータを入力する。ここで、「標準文字」(正解データ)とは、例えば、識別可能な文字や記号であり、調整文字に対する正解データである。判別部110は、調整文字が入力されると、調整文字に対応する標準文字を特定する。このように調整文字で学習された判別部110で特定される標準文字に対する認識精度は、調整されていない文字で学習された判別部110で特定される標準文字に対する認識精度と比べて、高くなる。なお、判別部110は、単体の装置であってもよい。
<<処理手順>>
図4、図5を参照して、識別システム100の処理手順について説明する。図4は、識別システム100の処理手順の一例を示すフロー図である。図5は、識別システム100によって処理された画像の一例を示す図である。図5(a)は、余白を含む文字を示す。図5(b)は、余白を除去した文字を示す。図5(c)は、太さが調整された文字を示す。
まず、S101において、識別システム100は、取得部102を介して読取器などの他の装置から画像情報を取得する。
次に、S102において、識別システム100は、除去部104で、図4(a)に示す画像情報から余白を除去する(図4(b))。
次に、S103において、識別システム100は、二値化部105で、枠が除去された画像を二値化する。
次に、S104において、識別システム100は、特定部106で、文字の、画素やピクセル値の総和を示す第1画素量を特定する。
次に、S105において、識別システム100は、特定部106で、文字の輪郭の、画素やピクセル値の総和を示す第2画素量を特定する。
次に、S106において、識別システム100は、算出部107で、第2画素量を「2」で除して、文字の長さに関する第1特徴値を算出する。
次に、S107において、識別システム100は、算出部107で、第2画素量(文字全体)を第1特徴値(文字の長さ)で除することにより、文字の太さに関する第2特徴値を算出する。
次に、S108において、識別システム100は、判定部108で、第2特徴値(文字の太さ)と所定の閾値とを比較する。これにより、文字を所定の太さに調整すべきか否かを判定できる。
次に、S109において、識別システム100は、調整部109で、判定部108における比較結果に基づいて文字の太さの調整に関する設定値を算出する。
次に、S110において、識別システム100は、調整部109で、設定値(カーネル)に基づいて文字の太さを調整する(図4(c))。
次に、S111において、識別システム100は、調整文字を判別部110に入力することにより、判別部110から当該調整文字に対応する標準文字を取得する。これにより、識別システム100は、調整文字に対応する標準文字を特定できる。なお、判別部110は、調整文字と、当該調整文字に対応付けられた標準文字とを入力データとして、予め学習される。
なお、上記において、算出部107は、第1画素量と第1特徴値とに基づいて、所定の文字の第2特徴値を算出することとして説明したが、これに限定されない。例えば、算出部107は、例えば、水平方向および垂直方向、又は水平方向に沿う部分が多い文字(例えば、第1記号)に関しては、実際の文字の太さとほぼ等しい値を第2特徴値として算出してもよい。また、算出部107は、例えば、斜め方向に沿う部分が多い文字(例えば、第2記号)に関しては、実際の文字の太さを示す値よりも太い文字となる値を第2特徴値として算出してもよい。そして、調整部109は、このような第2特徴値に基づいて、文字の太さを調整する。そのため、斜め方向に沿う部分が多い「ノ」のような文字と、斜め方向に沿う部分が少ない「一」のような文字とでは、それぞれの文字の太さを同じように調整しようとすると、見た目の太さが異なることになる。結果として、判別部110において、斜め方向に沿う部分が多い文字と、斜め方向に沿う部分が少ない文字との見た目を同じように調整しようとするものと比べ、斜め方向に沿う部分を有する文字の特徴を捉えることができ、文字の識別精度を向上させることができる。
===第2実施形態に係る識別システム200===
<<構成>>
図6~図8を参照して、第2実施形態に係る識別システム200について説明する。図6は、表示領域に表示された文字を示す図である。図7は、文字の座標を説明するための図である。図8は、移動量を説明するための図である。
識別システム200は、読取器で読み取られて所定の表示領域に表示された文字につき、当該表示領域における位置を調整する。これにより、識別システム200は、学習データを増大させることができ、又、文字の認識精度を向上させることができる。
第2実施形態に係る識別システム200は、第1実施形態に係る識別システム100における特定部106、算出部107、および調整部109を、特定部206、算出部207、および調整部209に置き換え、又は付加したものである。したがって、以下に述べられる以外の構成要素は、第1実施形態に係る識別システム100と同様のものとして、その説明を省略する。
なお、第2実施形態に係る識別システム200は、例えば、第1実施形態に係る識別システム100の機能を含んでいてもよい。すなわち、識別システム100は、文字の太さを調整する機能を有していてもよい。
特定部206は、例えば、所定の文字を表示する表示領域における、所定の文字を構成する画素それぞれの位置を示す位置情報を特定する。ここで、「表示領域」とは、例えば、図6に示すような、読取器で読み取られた一つの文字を表示する領域である。なお、図6では、一例として手書き文字を示している。また、「位置情報」とは、例えば、表示領域における、所定の文字を構成する画素それぞれの座標を示す情報である。具体的には、図7に示すように、位置情報は、文字が表示される表示領域において、画像座標系の座標を示す情報である。画像座標系は、x軸およびy軸の二つの軸で形成され、例えば、表示領域における、x座標の範囲が0~28のピクセルの幅であり、y座標の範囲が0~28のピクセルの幅であるとき、座標(x,y)とすると、紙面上における、左上の端が座標(0,0)となり、右下の端が座標(28,28)となる。なお、以下、図7,図8では、説明の便宜上、手書き文字を表示領域に概念的に示すこととする。
特定部206は、例えば基準位置を特定する。ここで、「基準位置」とは、表示領域において文字の移動量を決定するための基準となる位置であり、例えば表示領域の中心の位置である。なお、表示領域の中心の位置(以下「中心座標」という。)は、表示領域における、x座標の範囲の中心と、y座標の範囲の中心との交点であり、例えば図7に示す中心座標(14,14)である。
算出部207は、例えば、基準位置を示す基準情報と、位置情報と、に基づいて、表示領域に表示される文字を構成する画素の位置の移動量を調整量として算出する。以下、算出部207における移動量の算出方法の一例につき説明する。
算出部207は、例えば、位置情報に基づいて、文字を構成する画素それぞれの座標の平均を示す平均座標を算出する。具体的には、算出部207は、文字を構成する画素それぞれの座標が(x1,y1)、(x2,y2)、・・(xn,yn)である場合、x1~xnを平均して「x0」を算出し、y1~ynを平均して「y0」を算出して、平均座標(x0,y0)を求める。例えば、図7においては、平均座標(18,10)となる。
算出部207は、平均座標と、基準位置たる中心座標との差分を移動量として算出する。例えば、図7において、算出部207は、x座標の移動量を「14-x0」とし、y座標の移動量を「14-y0」として算出する。なお、算出部207は、平均座標を算出することに替えて、文字を構成する画素の座標における、最頻出な座標を示す最頻出座標や、中間を示す中間座標を算出してもよい。
調整部209は、例えば、移動量に基づいて、表示領域における文字を構成する全ての画素の位置を調整する。具体的には、調整部209は、例えば、図7に示す座標(11,2)の画素に対して、x座標において「11」に「14-x0」を加えたものをx座標の値とし、y座標において「2」に「14-y0」を加えたものをy座標の値として、座標を調整する。例えば、図7に示す座標(11,2)については、座標(7,6)に移動される。調整部209は、同様に、全ての画素の座標について調整する。これにより、調整部209は、図7に示す文字を、図8に示すように表示領域の中央部に移動させることができる。
よって、識別システム200は、読取器で読み取った文字の位置を表示領域内で統一できるため、文字認識の精度を向上できる。さらに、識別システム200は、判別部212(判別部110に相当)を学習する際に用いられる学習データ、検証データ、及びテストデータを新たに生成できる。換言すると、一つの文字から位置の異なる複数の文字を生成できるため、判別部212に入力する学習に関するデータを増大させて、判別部212の認識精度を向上できる。
なお、上述した識別システム200は、平均座標と基準位置との差分を移動量として算出する。そのため、文字に外接矩形を設定し、その外接矩形の中心を文字の中心とみなして文字の位置を調整する方法に比してノイズに強い。補足すると、文字に外接矩形を設定する方法では、文字の外側にノイズが存在する場合に、外接矩形が大きくなり文字の中心位置が不正確となる。これに対し、識別システム200では、文字を構成する画素それぞれの座標の平均座標(x0,y0)から移動量を算出するので、ノイズの影響を抑えることができる。
<<処理手順>>
図9、図10を参照して、識別システム200の処理手順について説明する。図9は、識別システム200の処理手順の一例を示すフロー図である。図10は、識別システム200によって文字の位置が調整される様子を示す図である。図10(a)は、位置が調整される前の文字を示す。図10(b)は、位置が調整された文字を示す。
S201~S203は、S101~103と同じであるため、その説明を省略する。
S204において、識別システム200は、特定部206で、表示領域に表示される文字を構成する画素それぞれの位置情報を特定する。次に、S205において、識別システム200は、特定部206で、表示領域において文字の移動量を決定するための基準となる基準位置を特定する。次に、S206において、識別システム200は、算出部207で、文字を構成する画素の平均座標を算出する。次に、S207において、識別システム200は、算出部207で、文字を移動させる移動量を算出する。次に、S208において、識別システム200は、調整部209で、文字を構成する画素それぞれを移動量だけ移動させる。これにより、文字の位置を調整することができる(図10(b))。
次に、S209において、識別システム200は、位置が調整された文字を判別部に入力することにより、判別部212から当該調整された文字に対応する標準文字を取得する。これにより、識別システム200は、当該調整された文字に対応する標準文字を特定できる。なお、判別部212は、例えば、当該調整された文字と、当該調整された文字に対応付けられた標準文字とを入力データとして、予め学習される。
===第3実施形態に係る識別システム300===
<<構成>>
図11を参照して、第3実施形態に係る識別システム300について説明する。図11は、識別システム300における標準偏差と拡大率を説明するための図である。
第3実施形態に係る識別システム300は、読取器で読み取られて所定の表示領域に表示された文字の大きさを調整する。これにより、識別システム300は、学習データを増大させることができ、又、文字の認識精度を向上させることができる。
第3実施形態に係る識別システム300は、第1実施形態に係る識別システム100における特定部106、算出部107、および調整部109につき、特定部306、算出部307、および調整部309に置き換え、又は付加したものである。したがって、以下に述べられる以外の構成要素は、第1実施形態に係る識別システム100と同様のものとして、その説明を省略する。
なお、第3実施形態に係る識別システム300は、例えば、第1実施形態に係る識別システム100および第2実施形態に係る識別システム200の機能を含んでいてもよい。すなわち、識別システム300は、例えば、文字の太さを調整する機能、および文字の位置を調整する機能を有していてもよい。
以下、第2実施形態に係る識別システム200の機能(文字の位置を調整する機能)を含んでいるものとして説明することとし、識別システム200の機能により、文字の位置が調整された状態で、文字の大きさを調整する処理について説明する。よって、図11に示す文字は、表示領域における中央部に移動されたものを示している。
特定部306は、例えば、表示領域に表示される文字を構成する画素それぞれの位置を示す位置情報を特定する。特定部306は、第2実施形態に係る識別システム200の特定部206と同様であるため、その説明を省略する。
算出部307は、例えば、位置情報に基づいて、表示領域に表示される文字を構成する画素の位置に関する偏りを調整量として算出する。換言すると、算出部307は、例えば、表示領域に表示される全ての画素の座標につき、平均偏差や標準偏差を算出する。以下、一例として、算出部307において、「標準偏差」が算出されるものとして説明する。具体的には、算出部307は、文字を構成する画素それぞれの座標が(x1,y1)、(x2,y2)、・・(xn,yn)である場合、x1~xnの標準偏差sを算出し、y1~ynの標準偏差tを算出する。なお、算出部307は、算出部207で算出されることを説明した平均座標(x0,y0)を用いて、標準偏差s、標準偏差tを算出する。
これにより、算出部307は、表示領域に表示される文字を構成する画素における、中心座標(x0,y0)からのバラつきを算出できる。換言すると、標準偏差sは文字におけるx軸に沿った方向の大きさを示し、標準偏差tは文字におけるy軸に沿った方向の大きさを示す。
調整部309は、標準偏差s、標準偏差tに基づいて、表示領域に表示された文字を構成する画素が占める領域を調整する。具体的には、調整部309は、例えば、予め定められた文字の大きさを示す定数uを、標準偏差sで除して、x軸に沿った方向(以下「x方向」という。)への拡大率Exを算出する。また、調整部309は、定数uを、標準偏差tで除して、y軸に沿った方向(以下「y方向」という。)への拡大率Eyを算出する。なお、定数uは、x方向の大きさと、y方向の大きさとが同じである文字を示す定数である。
これにより、図11に示すように、調整部309は、表示領域に表示された文字を、中心座標を中心として、x方向に拡大率Ex倍し、y方向に拡大率Ey倍して、調整する。なお、図11は、拡大される様子を概念的に示しているのであって、正確な計算に基づいて示されていない。また、図11では、y方向の文字の中心と、中心座標のy座標が一致しないため、ズレが生じているが、認識精度に与える影響は無視できるものである。
なお、上記では、文字をx方向およびy方向において同じ大きさの文字に調整するよう説明したが、これに限定されない。例えば、調整部309は、例えば、定数uを標準偏差sで除した結果を、x方向への拡大率Exとy軸方向への拡大率Eyとして算出する。これにより、文字のx方向およびy方向の比率を維持しつつ、文字のx方向の大きさを、予め定められた大きさに調整できる。
また、例えば、調整部309は、例えば、定数uを標準偏差tで除した結果を、x方向への拡大率Exとy軸方向への拡大率Eyとして算出する。これにより、文字のx方向およびy方向の比率を維持しつつ、文字のy方向の大きさを、予め定められた大きさに調整できる。
よって、識別システム300は、読取器で読み取った文字の大きさを拡大または縮小することにより、その文字の大きさを表示領域内で統一できるため、文字認識の精度を向上できる。さらに、識別システム300は、判別部312(判別部110に相当)を学習する際に用いられる学習データ、検証データ、及びテストデータを新たに生成できる。換言すると、一つの文字から大きさの異なる複数の文字を生成できるため、判別部312に入力する学習に関するデータを増大させて、判別部312の認識精度を向上できる。
なお、上述した識別システム300は、標準偏差s、tに基づいて、表示領域に表示された文字を構成する画素が占める領域を調整する。そのため、文字に外接矩形を設定し、その外接矩形の中心を文字の中心とみなして文字の大きさを調整する方法に比してノイズに強い。補足すると、文字に外接矩形を設定する方法では、文字の外側にノイズが存在する場合に、外接矩形の領域のうち文字以外の部分が大きくなる。そのため、文字以外の部分が、文字の大きさの調整に与える影響が大きくなる。これに対し、識別システム300では、標準偏差s、tに基づいて文字の拡大率Ex、Eyを算出し、文字の大きさを調整するので、文字の外側にノイズが存在したとしても、そのノイズの影響を抑えることができる。
<<処理手順>>
図12、図13を参照して、識別システム300の処理手順について説明する。図12は、識別システム300の処理手順の一例を示すフロー図である。図13は、識別システム300によって文字の大きさが調整される様子を示す図である。図13(a)は、位置が調整される前の文字を示す。図13(b)は、大きさが調整された文字を示す。
S301~S303は、S101~103と同じであるため、その説明を省略する。また、S304は、S204~S208と同じであるため、その説明を省略する。
S305において、識別システム300は、算出部307で、表示領域に表示される全ての画素の座標の標準偏差(平均偏差などでもよい)を算出する。次に、S306において、識別システム300は、算出部307で、文字におけるx方向およびy方向それぞれの拡大率を算出する。次に、S307において、識別システム300は、調整部309で、文字をx方向およびy方向それぞれの拡大率にて調整する。これにより、文字の大きさを調整することができる(図13(b))。
次に、S308において、識別システム300は、大きさが調整された文字を判別部312に入力することにより、判別部から当該調整された文字に対応する標準文字を取得する。これにより、識別システム300は、当該調整された文字に対応する標準文字を特定できる。なお、判別部312は、例えば、当該調整された文字と、当該調整された文字に対応付けられた標準文字とを入力データとして、予め学習される。
===第4実施形態に係る識別システム400===
第4実施形態に係る識別システム400は、例えば、第1実施形態に係る識別システム100の調整部109における文字の太さを調整する機能(以下、「太さ調整機能」という)、第2実施形態に係る識別システム200の調整部209における文字の位置(移動量)を調整する機能(以下、「位置調整機能」という)、第3実施形態に係る識別システム300の調整部309における文字の大きさ(拡大率、縮小率など)と調整する機能(以下、「大きさ調整機能」という)の少なくともいずれかを備え、一つの文字を識別するシステムである。そして、識別システム400は、例えば、一つの文字に対して少なくとも一つの条件で調整した少なくとも一つの文字を用いて学習されたニューラルネットワークを含む判別部410を備える。ここで、「条件」とは、例えば、上述した太さ調整機能、位置調整機能、または大きさ調整機能である。識別システム400は、判別部410を利用して、例えば、第1の識別方法と、第2の識別方法とにより、文字を識別することができる。
識別システム400における第1の識別方法は、例えば、一つの文字に対して複数の条件で調整した複数の文字を用いて学習された判別部410に対して、識別する対象の文字を調整せずに入力することで、文字を識別する方法である。また、識別システム400における第2の識別方法は、例えば、一つの文字に対して所定の条件で調整した一つの文字を用いて学習された判別部410に対して、識別する対象の文字を所定の条件で調子した後に入力することで、文字を識別する方法である。以下、第1の識別方法および第2の識別方法の一例について具体的に説明する。
まず、図14を参照して、第1の識別方法について説明する。図14は、第1の識別方法に関する処理手順の一例を示すフロー図である。
S401において、識別システム400は、太さ調整機能、位置調整機能、または大きさ調整機能のうち少なくともいずれかによって、例えば不特定の文字を調整する。具体的には、識別システム400は、例えば、太さ調整機能および位置調整機能を用いて文字を調整してもよい、位置調整機能および大きさ調整機能を用いて文字を調整してもよいし、全ての機能を用いて文字を調整してもよく、その組合せは限定されない。これにより、識別システム400は、太さ、位置、または大きさを調整した、判別部410の学習用のデータを生成することができる。すなわち、一つの文字に対して、文字の太さを調整すること、文字の位置を調整すること、文字の大きさを調整することを組み合わせて複数の調整した文字を生成することができるため、判別部410の学習データを増やすことができる。よって、識別システム400は、判別部410の学習効果を向上できる。
次に、S402において、識別システム400は、判別部410に、S400で調整された文字を入力する。判別部410は、調整された文字でニューラルネットワークをチューニングする。次に、S403において、識別システム400は、チューニングされた判別部410に、識別対象の文字を含む画像を入力する。換言すると、第1の識別方法では、チューニングされた判別部410に、調整されていない文字を入力する。S404において、識別システム400は、判別部410において、識別対象の文字に対応する例えば標準文字が特定される。
次に、図15を参照して、第2の識別方法について説明する。図15は、第2の識別方法に関する処理手順の一例を示すフロー図である。
S501において、識別システム400は、太さ調整機能、位置調整機能、または大きさ調整機能のうち少なくともいずれか(以下、所定の調整機能という)によって、例えば不特定の文字を調整する。各機能の組合せは限定されない。次に、S502において、識別システム400は、判別部410に、S501において所定の調整機能で調整された文字を入力する。判別部410は、調整された文字でニューラルネットワークをチューニングする。次に、S503において、識別システム400は、例えば、識別対象の文字を、S501における所定の調整機能によって、調整する。すなわち、第2の識別方法では、学習データを生成するための調整方法と、識別対象の文字の前処理における調整方法とを統一する。これにより、判別部410の認識精度を向上できる。S504において、識別システム400は、チューニングされた判別部410に、前処理された識別対象の文字を含む画像を入力する。換言すると、第2の識別方法では、チューニングされた判別部410に、調整された文字を入力する。S505において、識別システム400は、判別部410において、識別対象の文字に対応する例えば標準文字が特定される。
===ハードウェア===
図16を参照して、識別システム100~300をコンピュータ1000により実現する場合のハードウェア構成の一例を説明する。なお、識別システム100~300の各種機能は、複数台の装置に分けて実現することもできる。
図16は、コンピュータのハードウェア構成の一例を示す図である。図16に示すように、コンピュータ1000は、プロセッサ1001と、メモリ1002と、記憶装置1003と、入力I/F部1004と、データI/F部1005と、通信I/F部1006、及び表示装置1007を含む。
プロセッサ1001は、メモリ1002に記憶されているプログラムを実行することによりコンピュータ1000における各種の処理を制御する制御部である。
メモリ1002は、例えばRAM(Random Access Memory)等の記憶媒体である。メモリ1002は、プロセッサ1001によって実行されるプログラムのプログラムコードや、プログラムの実行時に必要となるデータを一時的に記憶する。
記憶装置1003は、例えばハードディスクドライブ(HDD)やフラッシュメモリ等の不揮発性の記憶媒体である。記憶装置1003は、オペレーティングシステムや、上記各構成を実現するための各種プログラムを記憶する。
入力I/F部1004は、ユーザからの入力を受け付けるためのデバイスである。入力I/F部1004の具体例としては、キーボードやマウス、タッチパネル、各種センサ、ウェアラブル・デバイス等が挙げられる。入力I/F部1004は、例えばUSB(Universal Serial Bus)等のインタフェースを介してコンピュータ1000に接続されても良い。
データI/F部1005は、コンピュータ1000の外部からデータを入力するためのデバイスである。データI/F部1005の具体例としては、各種記憶媒体に記憶されているデータを読み取るためのドライブ装置等がある。データI/F部1005は、コンピュータ1000の外部に設けられることも考えられる。その場合、データI/F部1005は、例えばUSB等のインタフェースを介してコンピュータ1000へと接続される。
通信I/F部1006は、コンピュータ1000の外部の装置と有線又は無線により、インターネットNを介したデータ通信を行うためのデバイスである。通信I/F部1006は、コンピュータ1000の外部に設けられることも考えられる。その場合、通信I/F部1006は、例えばUSB等のインタフェースを介してコンピュータ1000に接続される。
表示装置1007は、各種情報を表示するためのデバイスである。表示装置1007の具体例としては、例えば液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ、ウェアラブル・デバイスのディスプレイ等が挙げられる。表示装置1007は、コンピュータ1000の外部に設けられても良い。その場合、表示装置1007は、例えばディスプレイケーブル等を介してコンピュータ1000に接続される。また、入力I/F部1004としてタッチパネルが採用される場合には、表示装置1007は、入力I/F部1004と一体化して構成することが可能である。
===まとめ===
本実施形態における識別方法は、文字を構成する画素に関する画素情報に基づいて、文字に関する調整量を算出する算出部407と、調整量に基づいて、文字の形状又は位置のうち少なくともいずれかを調整する調整部409と、を備える識別システム400(情報処理システム)を用いて調整された文字により学習されたニューラルネットワーク(モデル)により、入力文字を識別する識別方法であって、ニューラルネットワークは、一つの文字に対して複数の条件で調整した複数の文字を用いて学習されたものであり、入力文字を含む画像を取得し、入力文字を識別システム400の調整部409により調整せずに、ニューラルネットワークを用いて判別する。これにより、一つの文字を調整して実質的に複数の文字を生成することができるため、判別部410の学習データを増やすことができる。よって、判別部410の学習効果を向上できる。
本実施形態における識別方法は、文字を構成する画素に関する画素情報に基づいて、文字に関する調整量を算出する算出部407と、調整量に基づいて、文字の形状又は位置のうち少なくともいずれかを調整する調整部409と、を備える識別システム(情報処理システム)を用いて調整された文字により学習されたニューラルネットワークにより、入力文字を識別する識別方法であって、ニューラルネットワークは、一つの文字に対して所定の条件で調整した一つの文字を用いて学習されたものであり、入力文字を含む画像を取得し、入力文字を識別システム400(情報処理システム)により調整し、調整された入力文字をニューラルネットワークを用いて判別する。これにより、学習データを生成するための調整方法と、識別対象の文字の前処理における調整方法とを統一して、判別部410の認識精度を向上できる。
本実施形態における識別システム100~300は、文字を構成する画素に関する画素情報に基づいて、文字に関する調整量(例えば、特徴値、移動量、偏りなど)を算出する算出部107と、調整量(例えば、特徴値、移動量、偏りなど)に基づいて、文字の形状又は位置のうち少なくともいずれかを調整する調整部109と、を備える。これにより、テキスト画像の文字の形状又は位置を適切に調整することができる。
第1実施形態における識別システム100において、算出部107は、文字を構成する第1画素数(画素数)と、文字の外周部を構成する第2画素数(画素数)と、に基づいて、文字に関する調整量(例えば、第1特徴値、第2特徴値)を算出する。これにより、テキスト画像の文字の太さを示す調整量(第2特徴値)を適切、簡易に特定することができる。
また、第1実施形態における識別システム100において、算出部107は、文字を構成する第1画素量(画素数)と、文字の外周部を構成する第2画素量(画素数)を「2」で除した第1特徴値(値)と、に基づいて、調整量(第2特徴値)を算出する。これにより、文字の太さの概念を適切、容易に表現することができるため、調整部109における調整が容易となる。
また、本実施形態における識別システム100は、所定の特徴量を有する文字で学習された判別部112に、調整部111で調整された文字を入力する入力部103と、判別部112で判定された識別結果を取得する取得部102と、をさらに備える。これにより、機械学習による文字の認識結果を容易に得ることができる。
第2実施形態における識別システム200において、算出部207は、文字を表示する表示領域における、文字を構成する画素それぞれの位置を示す位置情報と、所定の基準位置を示す基準情報と、に基づいて、文字を構成する画素の位置の移動量を調整量として算出し、調整部209は、移動量に基づいて、表示領域における文字を構成する画素の位置を調整する。これにより、読取器で読み取られて所定の表示領域に表示された文字の位置を調整することができるため、学習データを増大させることができ、又、文字の認識精度を向上させることができる。
また、第2実施形態における識別システム200において、算出部207は、位置情報に基づいて、文字を構成する画素の座標における、平均を示す平均座標、最頻出な座標を示す最頻出座標、中間を示す中間座標のうち少なくともいずれかを算出し、平均座標、最頻出座標、又は中間座標のうち少なくともいずれかと、基準位置を示す座標と、の差分を移動量として算出する。これにより、より適切に、表示領域の中心に文字を移動させることができるため、文字の認識精度を向上させることができる。
第3実施形態における識別システム300において、算出部307は、文字を表示する表示領域における、文字を構成する画素それぞれの位置を示す位置情報に基づいて、表示領域における文字を構成する画素の位置に関する偏りを調整量として算出し、調整部309は、偏りに基づいて、表示領域における文字を構成する画素が占める領域を調整する。これにより、読取器で読み取られて所定の表示領域に表示された文字の大きさを調整することができるため、学習データを増大させることができ、又、文字の認識精度を向上させることができる。
また、第3実施形態における識別システム300において、偏りは、平均偏差または標準編差のいずれかである。これにより、文字の大きさをより適切に調整することができる。
また、第3実施形態における識別システム300において、調整部309は、所定位置の座標から水平方向又は垂直方向のうち少なくともいずれかに、画素が占める領域を偏りに基づいて拡大又は縮小のうち少なくともいずれかを行う。これにより、読取器で読み取った文字の大きさを表示領域内で統一できるため、文字認識の精度を向上できる。
また、調整された文字により学習されたニューラルネットワークにより、入力文字を識別する識別システム400であって、ニューラルネットワークは、一つの文字に対して所定の条件で調整した一つの文字を用いて学習されたものであり、入力文字を含む画像を取得するための取得部402と、入力文字を識別システム400により調整し、調整された入力文字をニューラルネットワークを用いて判別する判別部410と、を備える。これにより、学習データを生成するための調整方法と、識別対象の文字の前処理における調整方法とを統一して、判別部410の認識精度を向上できる。
また、調整された文字により学習されたニューラルネットワークにより、入力文字を識別する識別システム400であって、モデルは、一つの文字に対して複数の条件で調整した複数の文字を用いて学習されたものであり、入力文字を含む画像を取得するための取得部402と、入力文字を識別システム400により調整せずに、ニューラルネットワークを用いて判別する判別部410と、を備える。これにより、一つの文字を調整して実質的に複数の文字を生成することができるため、判別部410の学習データを増やすことができる。よって、識別システム400は、判別部410の学習効果を向上できる。
100,200,300,400…識別システム、101…記憶部、102…取得部、103…入力部、104…除去部、105…二値化部、106,206,306,406…特定部、107,207,307,407…算出部、108,208,308,408…判定部、109,209,309,409…調整部、110,210,310,410…判別部。

Claims (16)

  1. 文字を構成する画素に関する画素情報に基づいて、前記文字に関する調整量を算出する算出部と、前記調整量に基づいて、前記文字の形状又は位置のうち少なくともいずれかを調整する調整部と、を備える情報処理システム、を用いて調整された文字により学習されたモデルにより、入力文字を識別する識別方法であって、
    前記モデルは、一つの文字に対して複数の条件で調整した複数の文字を用いて学習されたものであり、
    前記入力文字を含む画像を取得し、
    前記入力文字を前記情報処理システムにより調整せずに、前記モデルを用いて判別する、
    識別方法。
  2. 文字を構成する画素に関する画素情報に基づいて、前記文字に関する調整量を算出する算出部と、前記調整量に基づいて、前記文字の形状又は位置のうち少なくともいずれかを調整する調整部と、を備える情報処理システム、を用いて調整された文字により学習されたモデルにより、入力文字を識別する識別方法であって、
    前記モデルは、一つの文字に対して所定の条件で調整した一つの文字を用いて学習されたものであり、
    前記入力文字を含む画像を取得し、
    前記入力文字を前記情報処理システムにより前記所定の条件で調整し、調整された入力文字を前記モデルを用いて判別する、
    識別方法。
  3. 文字を構成する画素に関する画素情報に基づいて、前記文字に関する調整量を算出する算出部と、
    前記調整量に基づいて、前記文字の形状又は位置のうち少なくともいずれかを調整する調整部と、
    を備える情報処理システム。
  4. 前記算出部は、
    前記文字を構成する画素数、前記文字の外周部を構成する画素数と、に基づいて、前記調整量を算出する、
    請求項3に記載の情報処理システム。
  5. 前記算出部は、
    前記文字を構成する画素数と、前記文字の外周部を構成する画素数を2で除した値と、に基づいて、前記調整量を算出する、
    請求項3又は4に記載の情報処理システム。
  6. 所定の特徴量を有する文字で学習された判別部に、前記調整部で調整された文字を入力する入力部と、
    前記判別部で判別された識別結果を取得する取得部と、
    をさらに備える請求項3から5のいずれか1項に記載の情報処理システム。
  7. 前記算出部は、前記文字を表示する表示領域における、前記文字を構成する画素それぞれの位置を示す位置情報と、所定の基準位置を示す基準情報と、に基づいて、前記文字を構成する画素の位置の移動量を前記調整量として算出し、
    前記調整部は、前記移動量に基づいて、前記表示領域における前記文字を構成する画素の位置を調整する、
    請求項3から6のいずれか一項に記載の情報処理システム。
  8. 前記算出部は、
    前記位置情報に基づいて、前記文字を構成する画素の座標における、平均を示す平均座標、最頻出な座標を示す最頻出座標、中間を示す中間座標のうち少なくともいずれかを算出し、
    前記平均座標、前記最頻出座標、又は前記中間座標のうち少なくともいずれかと、前記基準位置を示す座標と、の差分を前記移動量として算出する、
    請求項7に記載の情報処理システム。
  9. 前記算出部は、前記文字を表示する表示領域における、前記文字を構成する画素それぞれの位置を示す位置情報に基づいて、前記表示領域における前記文字を構成する画素の位置に関する偏りを前記調整量として算出し、
    前記調整部は、前記偏りに基づいて、前記表示領域における前記文字を構成する画素が占める領域を調整する、
    請求項3から8のいずれか一項に記載の情報処理システム。
  10. 前記偏りは、平均偏差または標準編差のいずれかである、
    請求項9に記載の情報処理システム。
  11. 前記調整部は、所定位置の座標から水平方向又は垂直方向のうち少なくともいずれかに、前記画素が占める領域を前記偏りに基づいて拡大又は縮小のうち少なくともいずれかを行う、
    請求項9又は10のいずれか一項に記載の情報処理システム。
  12. 請求項3から11のいずれか一項に記載の情報処理システムを用いて調整された文字により学習されたモデルにより、入力文字を識別する識別システムであって、
    前記モデルは、一つの文字に対して所定の条件で調整した一つの文字を用いて学習されたものであり、
    前記入力文字を含む画像を取得するための取得部と、
    前記入力文字を前記情報処理システムにより前記所定の条件で調整し、調整された入力文字を前記モデルを用いて判別する判別部と、
    を備える、識別システム。
  13. 請求項3から11のいずれか一項に記載の情報処理システムを用いて調整された文字により学習されたモデルにより、入力文字を識別する識別システムであって、
    前記モデルは、一つの文字に対して複数の条件で調整した複数の文字を用いて学習されたものであり、
    前記入力文字を含む画像を取得するための取得部と、
    前記入力文字を前記情報処理システムにより調整せずに、前記モデルを用いて判別する判別部と、
    を備える、識別システム。
  14. 請求項1又は2に記載の識別方法をコンピュータに実現させるためのプログラム。
  15. コンピュータが、
    文字を構成する画素に関する画素情報に基づいて、前記文字に関する調整量を算出することと、
    前記調整量に基づいて、前記文字の形状又は位置のうち少なくともいずれかを調整することと、
    を実行する方法。
  16. コンピュータに、
    文字を構成する画素に関する画素情報に基づいて、前記文字に関する調整量を算出することと、
    前記調整量に基づいて、前記文字の形状又は位置のうち少なくともいずれかを調整することと、
    を実行させるためのプログラム。
JP2020146682A 2020-09-01 2020-09-01 識別方法、情報処理システム、方法、およびプログラム Pending JP2022041468A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020146682A JP2022041468A (ja) 2020-09-01 2020-09-01 識別方法、情報処理システム、方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020146682A JP2022041468A (ja) 2020-09-01 2020-09-01 識別方法、情報処理システム、方法、およびプログラム

Publications (1)

Publication Number Publication Date
JP2022041468A true JP2022041468A (ja) 2022-03-11

Family

ID=80499869

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020146682A Pending JP2022041468A (ja) 2020-09-01 2020-09-01 識別方法、情報処理システム、方法、およびプログラム

Country Status (1)

Country Link
JP (1) JP2022041468A (ja)

Similar Documents

Publication Publication Date Title
WO2022148192A1 (zh) 图像处理方法、图像处理装置以及非瞬时性存储介质
CN113139445B (zh) 表格识别方法、设备及计算机可读存储介质
Samra et al. Localization of license plate number using dynamic image processing techniques and genetic algorithms
EP1768058A2 (en) Information processing apparatus and control method therefor
US8693790B2 (en) Form template definition method and form template definition apparatus
CN113486828B (zh) 图像处理方法、装置、设备和存储介质
JP4738469B2 (ja) 画像処理装置、画像処理プログラムおよび画像処理方法
JP4694613B2 (ja) 原稿方向判定装置、原稿方向判定方法、プログラムおよびその記録媒体
WO2021190155A1 (zh) 文本行中的空格识别方法、装置、电子设备及存储介质
CN111626145B (zh) 一种简捷有效的残缺表格识别及跨页拼接方法
JP4704601B2 (ja) 文字認識方法,プログラム及び記録媒体
US20150015603A1 (en) Method for cutting out character, character recognition apparatus using this method, and program
US8254693B2 (en) Image processing apparatus, image processing method and program
JP5027201B2 (ja) テロップ文字領域検出方法,テロップ文字領域検出装置およびテロップ文字領域検出プログラム
CN107209862B (zh) 识别装置和信息存储介质
JP2022041468A (ja) 識別方法、情報処理システム、方法、およびプログラム
JP2013097561A (ja) 単語間空白検出装置、単語間空白検出方法及び単語間空白検出用コンピュータプログラム
JP4418726B2 (ja) 文字列探索装置、探索方法およびこの方法のプログラム
JP3476595B2 (ja) 画像領域分割方法、および画像2値化方法
JP4648084B2 (ja) 記号認識方法及び装置
JP2004094427A (ja) 帳票画像処理装置及び該装置を実現するためのプログラム
JP5402417B2 (ja) 画像処理装置
JP7370574B2 (ja) コマ抽出方法及びプログラム
JP7034823B2 (ja) 画像処理プログラム、画像処理方法、及び画像処理装置
JPH0830725A (ja) 画像処理装置及び方法