JP2022041468A

JP2022041468A - 識別方法、情報処理システム、方法、およびプログラム

Info

Publication number: JP2022041468A
Application number: JP2020146682A
Authority: JP
Inventors: 佳久石橋; Yoshihisa ISHIBASHI
Original assignee: Arithmer Inc
Current assignee: Arithmer Inc
Priority date: 2020-09-01
Filing date: 2020-09-01
Publication date: 2022-03-11

Abstract

【課題】テキスト画像の文字の形状又は位置のうち少なくともいずれかを適切に調整することを目的とする。【解決手段】文字を構成する画素に関する画素情報に基づいて、前記文字に関する調整量を算出する算出部と、前記調整量に基づいて、前記文字の形状又は位置のうち少なくともいずれかを調整する調整部と、を備える。【選択図】図１

Description

本発明は、識別方法、情報処理システム、方法、およびプログラムに関する。

従来、手書き文字や活字が記入された帳票を、光学文字認識システム（ＯＣＲ：ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ）で読み取ることにより、所定の文字コードに変換したデジタルデータを生成する手法が知られている。例えば、特許文献１には、機械学習の手法でＯＣＲの認識エンジンを構築することが開示されている。

特許第６４７４５０４号

特許文献１に記載の従来システムにおいては、各種認識方法を用いて行方向の手書きの文字列を抽出している。そして、従来システムは、抽出した行方向の文字列を、ニューラルネットワークなどを用いて文字認識している。しかしながら、従来システムでは、抽出した文字列を文字認識するためには大量の学習用データを収集する必要があるが、文字の太さ、大きさ、位置などが一定ではない場合、文字認識の精度を向上させることが困難である。

そこで、本発明は、上記の課題を解決するために、テキスト画像の文字の形状又は文字の位置を適切に調整することにより、文字の認識精度を向上させることを目的とする。

本発明の一態様に係る識別方法は、文字を構成する画素に関する画素情報に基づいて、前記文字に関する調整量を算出する算出部と、前記調整量に基づいて、前記文字の形状又は位置のうち少なくともいずれかを調整する調整部と、を備える情報処理システム、を用いて調整された文字により学習されたモデルにより、入力文字を識別する識別方法であって、前記モデルは、一つの文字に対して複数の条件で調整した複数の文字を用いて学習されたものであり、前記入力文字を含む画像を取得し、前記入力文字を前記情報処理システムにより調整せずに、前記モデルを用いて判別する。

本発明の一態様に係る識別方法は、文字を構成する画素に関する画素情報に基づいて、前記文字に関する調整量を算出する算出部と、前記調整量に基づいて、前記文字の形状又は位置のうち少なくともいずれかを調整する調整部と、を備える情報処理システム、を用いて調整された文字により学習されたモデルにより、入力文字を識別する識別方法であって、前記モデルは、一つの文字に対して所定の条件で調整した一つの文字を用いて学習されたものであり、前記入力文字を含む画像を取得し、前記入力文字を前記情報処理システムにより前記所定の条件で調整し、調整された入力文字を前記モデルを用いて判別する。

本発明の一態様に係る情報処理システムは、文字を構成する画素に関する画素情報に基づいて、前記文字に関する調整量を算出する算出部と、前記調整量に基づいて、前記文字の形状又は位置のうち少なくともいずれかを調整する調整部と、を備える。

本発明の一態様に係る方法は、コンピュータが、文字を構成する画素に関する画素情報に基づいて、前記文字に関する調整量を算出することと、前記調整量に基づいて、前記文字の形状又は位置のうち少なくともいずれかを調整することと、を実行する。

本発明の一態様に係るプログラムは、コンピュータに、文字を構成する画素に関する画素情報に基づいて、前記文字に関する調整量を算出することと、前記調整量に基づいて、前記文字の形状又は位置のうち少なくともいずれかを調整することと、を実行させる。

本発明によれば、テキスト画像の文字の形状又は位置のうち少なくともいずれかを適切に調整することにより、文字の認識精度を向上させることができる。

第１実施形態に係る識別システムの構成を示す図である。第１特徴値及び第２特徴値を説明するための図である。第１特徴値及び第２特徴値を説明するための図である。調整部で太くなるように調整された第１記号を示す図である。調整部で細くなるように調整された第１記号を示す図である。調整部で太くなるように調整された第２記号を示す図である。第１実施形態に係る識別システムの処理手順の一例を示すフロー図である。第１実施形態に係る識別システムの処理に応じて文字が変化する様子を示す図である。第２実施形態に係る識別システムにおいて表示領域に表示される文字を示す図である。第２実施形態に係る識別システムおける文字の座標を説明するための図である。第２実施形態に係る識別システムにおける移動量を説明するための図である。第２実施形態に係る識別システムの処理手順の一例を示すフロー図である。第２実施形態に係る識別システムによって文字の位置が調整される様子を示す図である。第３実施形態に係る識別システムにおける標準偏差と拡大率を説明するための図である。第３実施形態に係る識別システムの処理手順の一例を示すフロー図である。第３実施形態に係る識別システムによって文字の大きさが調整される様子を示す図である。第４実施形態に係る識別システムの第１の識別方法に関する処理手順の一例を示すフロー図である。第４実施形態に係る識別システムの第２の識別方法に関する処理手順の一例を示すフロー図である。コンピュータのハードウェア構成の一例を示す図である。

以下に、本発明の一実施形態における識別システム１００について、図面を参照して詳細に説明する。ただし、以下に説明する実施形態は、あくまでも例示であり、以下に明示しない種々の変形や技術の適用を排除する意図はない。すなわち、本発明は、その趣旨を逸脱しない範囲で種々変形し、または各実施例を組み合わせるなどして実施することができる。また、以下の図面の記載において、同一または類似の部分には同一または類似の符号を付して表している。
＝＝＝第１実施形態に係る識別システム１００＝＝＝

＜＜構成＞＞
識別システム１００は、イメージスキャナなどの読取器で読み取られた、手書き文字、記号、活字など（以下、「文字」という。）の太さを簡易な方法で推定する。識別システム１００は、推定された文字の太さに基づき、当該文字を所定の太さにするための調整量を特定する。これにより、識別システム１００は、当該調整量に基づき、当該文字を所定の特徴量で示される太さになるように調整することができる。

識別システム１００は、所定の特徴量で示される太さに調整された文字に関するデータにより、判別部１１０を学習させてもよい。すなわち、識別システム１００によれば、判別部１１０を学習させるための前処理を適切に実行することができる。さらに言うと、調整された認識対象の文字を、学習済みの判別部１１０に入力することにより、当該認識対象の文字を認識する認識精度が向上する。また、文字列の検出、文字の分類、および文字の強調が容易となる。

ここで、文字の「太さ」とは、例えば文字の所定の方向の画素数やピクセル値の総和などをいう。また、文字の「所定の方向」とは、例えば手書きにおいてペンを動かす方向と直交する方向である。

図１を参照して、識別システム１００の構成について説明する。図１は、識別システム１００の構成を示す図である。図１に示すように、識別システム１００は、例えば、記憶部１０１と、取得部１０２と、入力部１０３と、除去部１０４と、二値化部１０５と、特定部１０６と、算出部１０７と、判定部１０８と、調整部１０９と、判別部１１０とを含む。

記憶部１０１は、各種情報を格納する。

取得部１０２は、読取器などの他の装置から画像情報を取得する。ここで、画像情報は、例えばｊｐｇ、ｔｉｆ、ｇｉｆ、ｐｎｇなどの形式の画像である。また、当該画像情報には、例えば画像における各画素の色値および位置情報が含まれる。

ここで、色値は、例えば、ＲＧＢ（ＲｅｄＧｒｅｅｎＢｌｕｅ）や色相・彩度・明度を示すカラーモデル、グレー値などである。また、位置情報は、例えば当該画像における各画素の座標を含む。以下、一例として、取得部１０２において文字が含まれる画像情報が取得されるとして説明する。また、以下、単に「文字」という場合、当該「文字」は画像情報に含まれる文字に関する情報を示すことも含む。

入力部１０３は、例えば、判別部１１０に、学習用のデータ、調整された各種データなどを入力する。

除去部１０４は、読取器で読み取られた画像情報に含まれる余白を除去する。余白とは、所定の文字の周辺部における、文字を含まない所定の領域をいう。また、除去部１０４は、文字の周辺に存する枠線を除去してもよい。これにより、識別システム１００において容易に文字を識別できるため、文字の認識精度が向上する。

二値化部１０５は、読取器で読み取られた画像情報に含まれる文字を二値化する。ここで、二値化とは、例えば、画像の濃淡を、濃淡値として「０」か「１」、例えば「黒」か「白」で表現する処理である。これにより、識別システム１００において容易に文字を識別できるため、文字の認識精度が向上する。

特定部１０６は、所定の文字の第１画素量を特定する。ここで、「文字」には、一つの文字、文字が連なる文字列、及び記号などが含まれる。また、「第１画素量」とは、例えば文字を構成する画素数やピクセル値などである。具体的に述べると、特定部１０６は、第１画素量が画素数である場合、一つの文字（又は文字列）を構成する画素の総画素数を、一つの文字の第１画素量として特定する。この場合、特定部１０６は、例えば白色の一つの文字が８１個の画素で形成されているとすると、第１画素量を、総画素数である「８１」として特定する。

また、特定部１０６は、第１画素量がピクセル値の場合、白色（ピクセル値「２５５」）の一つの文字（又は文字列）に含まれるピクセル値の総和を、一つの文字の第１画素量として特定する。この場合、特定部１０６は、例えば白色の一つの文字が８１個の画素で形成されているとすると、第１画素量を、ピクセル値の総和である「２０６５５」（＝８１個の画素×２５５ピクセル値）として特定する。

そして、特定部１０６は、所定の文字の外周部の第２画素量を特定する。ここで、「外周部」とは、例えば文字の輪郭である。「輪郭」とは、例えば文字の縁を形成する画素の集合である。「第２画素量」とは、例えば輪郭を構成する画素数やピクセル値などである。具体的に述べると、特定部１０６は、第２画素量が画素数である場合、一つの文字（又は文字列）の輪郭を構成する画素の総画素数を、一つの文字の輪郭の第２画素量として特定する。この場合、特定部１０６は、例えば白色の一つの文字の輪郭が３６個の画素で形成されているとすると、第２画素量を総画素数である「３６」として特定する。

また、特定部１０６は、第２画素量がピクセル値の場合、白色（ピクセル値「２５５」）の一つの文字（又は文字列）の輪郭に含まれるピクセル値の総和を、一つの文字の輪郭の第２画素量として特定する。この場合、特定部１０６は、例えば白色の一つの文字の輪郭が３６個の画素で形成されているとすると、第２画素量をピクセル値の総和である「９１８０」（＝３６個の画素×２５５ピクセル値）として特定する。

算出部１０７は、第２画素量と所定の値とに基づいて、所定の文字の第１特徴値を算出する。具体的に述べると、算出部１０７は、例えば、第２画素量を所定の値で除して、第１特徴値を算出する。ここで、「所定の値」とは、例えば「２」であることが望ましい。すなわち、算出部１０７は、文字の輪郭のピクセル値の総和又は画素数を「２」で除すことにより、文字の略長さを示す第１特徴値を算出する。

そして、算出部１０７は、第１画素量と第１特徴値とに基づいて、所定の文字の第２特徴値を算出する。具体的に述べると、算出部１０７は、例えば、第１画素量を第１特徴値で除して、第２特徴値を算出する。すなわち、算出部１０７は、文字を構成する画素の総画素数又は文字のピクセル値の総和を、文字の略長さを示す第１特徴値で除すことにより、文字の略太さを示す第２特徴値を算出する。

図２Ａ，図２Ｂを参照して、第１特徴値及び第２特徴値の詳細について説明する。図２Ａ，図２Ｂは、第１特徴値及び第２特徴値を説明するための図である。図２Ａ，図２Ｂにおいて、後述する第１記号の長手方向に沿う軸をｘ軸とし、第１記号の短手方向に沿う軸をｙ軸とする。

図２Ａには、説明の便宜のため、座標の一方の軸に沿って延びる記号（以下、「第１記号」という。）を示す。図２Ａでは、理解を助けるために、第１記号の各画素に通し番号を付与している。すなわち、図２Ａにおいては、第１記号は「８１」個の画素で形成されていることとする。

特定部１０６は、第１記号を形成する画素の個数（８１個）を第１画素量として特定する。そして、特定部１０６は、第１記号の輪郭を示す符号「１」～「３６」の画素（ハッチングされた画素）の個数（３６個）を、第２画素量として特定する。

算出部１０７は、例えば、第２画素量の「３６」を「２」で除して、第１記号の略長さ「１８」を第１特徴値として算出する。ここで、図２Ａにおいて、第１記号の長さは、例えば座標のｘ軸に沿う方向の画素数として説明する。すなわち、本実施形態においては、第１記号の実際の長さは「１７」であるが、一方、算出部１０７で算出された第１記号の略長さは「１８」となる。このように、算出部１０７で算出される、座標の一方のｘ軸に沿うように形成される文字や記号の略長さは、実際の文字や記号の長さとほぼ等しい値になる。

算出部１０７は、例えば、第１画素量「８１」を第１特徴値「１８」で除して算出される、第１記号の略太さ「４．５」を、第２特徴値として算出する。ここで、第１記号の略太さは、例えば座標のｘ軸に沿う方向と直交するｙ軸に沿う方向の画素数である。本実施形態においては、第１記号の実際の太さは「５」であるが、一方、算出部１０７で算出された第１記号の略太さは「４．５」である。このように、算出部１０７で算出される、線で形成される文字や記号を示す第１記号の略太さは、実際の第１記号の太さとほぼ等しい値になる。

図２Ｂでは、座標のｘ軸と交差する方向に延びる記号（以下、「第２記号」という。）を示す。図２Ｂでは、理解を助けるために、第２記号の各画素に通し番号を付与している。すなわち、図２Ｂにおいては、第２記号は、第１記号と同様に、「８１」個の画素で形成されていることとする。

特定部１０６は、例えば第２記号を形成する画素の個数（８１個）を第１画素量として特定する。そして、特定部１０６は、第２記号の輪郭を示す符号「１」～「３６」の画素（ハッチングされた画素）の個数（３６個）を、第２画素量として特定する。

算出部１０７は、例えば、第２画素量の「３６」を「２」で除して、第２記号の略長さ「１８」を第１特徴値として算出する。ここで、第２記号の長さは、例えば座標のｘ軸と交差する方向であり、第２記号の長手方向の画素数である。本実施形態においては、第２記号の実際の長さは約「２４」（＝１７×１．４１）であるが、一方、算出部１０７で算出された第２記号の略長さは「１８」となる。このように、算出部１０７で算出される第２記号の略長さは、実際の第２記号の長さと乖離する。

算出部１０７は、例えば、第１記号と同様に、第１画素量「８１」を第１特徴値「１８」で除して、第２記号の略太さ「４．５」を第２特徴値として算出する。本実施形態においては、図２Ｂに示すように、実際の第２記号の太さは約「３．５」（＝２．５×１．４１）である。このように、算出部１０７で算出される、傾斜する線で形成される文字や記号を示す第２記号の略太さは、実際の第２記号の太さよりも太くなるように算出される。

判定部１０８は、例えば所定の閾値と第２特徴値との大小関係を判定する。以下、一例として、図２Ａの第１記号を用いて、具体的に説明する。判定部１０８は、例えば、所定の閾値を画素数「７．０」に設定した場合、当該閾値「７．０」と、算出部１０７で算出された第１記号の第２特徴値「４．５」とを比較する。この場合、判定部１０８は、第２特徴値（文字の太さ）が閾値よりも小さいと判定する。なお、判定部１０８で設定される所定の閾値は、画像情報から抽出可能な値と比較可能な値であればよく、例えばピクセル値であってもよい。

調整部１０９は、例えば、判定部１０８の判定結果に基づいて、所定の文字を調整する。図３を参照して、調整部１０９における所定の文字の調整の詳細について説明する。図３Ａは、調整部１０９で文字の太さが太くなるように調整された第１記号を示す図である。図３Ｂは、調整部１０９で文字の太さが細くなるように調整された第１記号を概念的に示す。図３Ｃは、調整部１０９で文字の太さが太くなるように調整された第２記号を概念的に示す。図３において、第１記号の水平方向に沿う軸をｘ軸とし、第１記号の垂直方向に沿う軸をｙ軸とする。

調整部１０９は、例えば、第１記号の輪郭に沿って画素を追加又は削除して、第１記号の太さを調整する。調整部１０９は、例えばカーネルを用いた膨張・収縮処理（以下、「太さ調整処理」という。）を実行して、第１記号を膨張又は収縮させる。太さ調整処理では、入力画像及び構造的要素（以下、「設定値」という。）を入力要素とする。

具体的に述べると、調整部１０９は、判定部１０８において第２特徴値が所定の閾値よりも小さいと判定された場合、第１記号を膨張（太く）させる。調整部１０９は、例えば、所定の閾値「７．０」から第２特徴値「４．５」を差し引いて算出された値「２．５」を直近下位の整数にまるめて、設定値「２．０」を算出する。調整部１０９は、設定値「２．０」に対応するカーネルを画面内において順次移動させる。ここで、設定値「２．０」に対応するカーネルを、例えば（３×３）ピクセルとする。なお、設定値に対応するカーネルは一例を示すものであり、例えば（２×２）ピクセルであってもよい。なお、（ｍ×ｎ）ピクセルとは、例えば、縦にｍピクセル、横にｎピクセルで構成される領域である。調整部１０９は、カーネル内において画素値「１」の画素が一つでも含まれる場合、カーネル内の中心の画素の画素値を「１」にする。これにより、図２Ａの第１記号に図３Ａに示すハッチングした画素が追加される。すなわち、調整部１０９は、例えば、設定値が「ｎ」のとき（（ｎ＋１）×（ｎ＋１））ピクセルのカーネルで文字をｎピクセル膨張（太く）させるよう調整する。これにより、調整部１０９は、設定値が「２．０」で第１記号の実際の太さが「５．０」であるため、第１記号の太さを画素数「７．０」に調整できる。なお、カーネルのサイズが偶数のときは、カーネルの中心となるピクセルが存在しないため、カーネルの中心領域の右上のピクセルを基準（上述した「中心」）に設定する。

また、調整部１０９は、判定部１０８において第２特徴値が所定の閾値よりも大きいと判定された場合、第１記号を収縮（細く）させる。具体的には、調整部１０９は、例えば、所定の閾値が「３．０」に設定されている場合、所定の閾値「３．０」から第２特徴値「４．５」を差し引いて算出された値の絶対値「１．５」を直近上位の整数にまるめて、設定値「２．０」を算出する。調整部１０９は、設定値「２．０」に対応するカーネルを画面内において順次移動させる。設定値「２．０」に対応するカーネルとは、例えば、設定値に「１」を加算した値を縦横のピクセル数とした（３×３）ピクセルである。なお、設定値に対応するカーネルは一例を示すものであり、例えば、設定値を縦横のピクセル数としたカーネルを採用してもよい。調整部１０９は、カーネル内において画素値「０」の画素が一つでも含まれる場合、カーネル内の中心の画素の画素値を「０」にする。これにより、図３Ｂの第１記号から図に示すハッチングした画素が削除される。すなわち、調整部１０９は、例えば、設定値が「ｎ」のとき（（ｎ＋１）×（ｎ＋１））ピクセルのカーネルで文字をｎピクセル収縮（細く）させるよう調整する。これにより、調整部１０９は、設定値が「２．０」で第１記号の実際の太さが「５．０」であるため、第１記号の太さを画素数「３．０」に調整できる。

また、仮に、第１記号及び第２記号で一つの文字又は文字列が形成されている場合、調整部１０９は、例えば、第２記号に対しても、太さ調整処理を実行し、第２記号を膨張又は収縮させて、第２記号の太さを調整する。具体的に述べると、調整部１０９は、図２Ｂの第２記号に図３Ｃに示すハッチングした画素を追加する。これにより、調整部１０９において、第２記号の太さが画素数約「６．３」（＝４．５×１．４１）に調整される。

すなわち、識別システム１００では、第２記号のように、算出部１０７で算出される第２特徴値が実際の太さを示す値よりも著しく大きい場合において、文字又は文字列の全体の太さを、第２特徴値と所定の閾値との関係により算出される設定値に基づいて調整すると、その全体の太さが略均一になるよう調整される。

なお、調整部１０９は、上述した太さ調整処理を実行することに限定されず、他の処理方法によって、所定の文字の太さを調整してもよい。例えば、調整部１０９は、カーネル内において画素値「１」の画素が一つでも含まれる場合、カーネル内の全ての画素の画素値を「１」に統一してもよい。この場合、設定値が「２ｎ」のとき（（ｎ＋１）×（ｎ＋１））ピクセルのカーネルで文字を膨張させると、当該文字が約２ｎピクセル太くなる。収縮の場合は、当該文字が約２ｎピクセル細くなる。

判別部１１０は、例えば、入力部１０３を介して、調整部１０９で調整された文字（以下、「調整文字」という。）と、調整文字に対応する標準文字とを入力データとして、ニューラルネットワーク（モデル）により学習される。判別部１１０には、例えば、入力部１０３を介して、調整部１０９で調整された、学習データ、検証データ、及びテストデータを入力する。ここで、「標準文字」（正解データ）とは、例えば、識別可能な文字や記号であり、調整文字に対する正解データである。判別部１１０は、調整文字が入力されると、調整文字に対応する標準文字を特定する。このように調整文字で学習された判別部１１０で特定される標準文字に対する認識精度は、調整されていない文字で学習された判別部１１０で特定される標準文字に対する認識精度と比べて、高くなる。なお、判別部１１０は、単体の装置であってもよい。

＜＜処理手順＞＞
図４、図５を参照して、識別システム１００の処理手順について説明する。図４は、識別システム１００の処理手順の一例を示すフロー図である。図５は、識別システム１００によって処理された画像の一例を示す図である。図５（ａ）は、余白を含む文字を示す。図５（ｂ）は、余白を除去した文字を示す。図５（ｃ）は、太さが調整された文字を示す。

まず、Ｓ１０１において、識別システム１００は、取得部１０２を介して読取器などの他の装置から画像情報を取得する。

次に、Ｓ１０２において、識別システム１００は、除去部１０４で、図４（ａ）に示す画像情報から余白を除去する（図４（ｂ））。

次に、Ｓ１０３において、識別システム１００は、二値化部１０５で、枠が除去された画像を二値化する。

次に、Ｓ１０４において、識別システム１００は、特定部１０６で、文字の、画素やピクセル値の総和を示す第１画素量を特定する。

次に、Ｓ１０５において、識別システム１００は、特定部１０６で、文字の輪郭の、画素やピクセル値の総和を示す第２画素量を特定する。

次に、Ｓ１０６において、識別システム１００は、算出部１０７で、第２画素量を「２」で除して、文字の長さに関する第１特徴値を算出する。

次に、Ｓ１０７において、識別システム１００は、算出部１０７で、第２画素量（文字全体）を第１特徴値（文字の長さ）で除することにより、文字の太さに関する第２特徴値を算出する。

次に、Ｓ１０８において、識別システム１００は、判定部１０８で、第２特徴値（文字の太さ）と所定の閾値とを比較する。これにより、文字を所定の太さに調整すべきか否かを判定できる。

次に、Ｓ１０９において、識別システム１００は、調整部１０９で、判定部１０８における比較結果に基づいて文字の太さの調整に関する設定値を算出する。

次に、Ｓ１１０において、識別システム１００は、調整部１０９で、設定値（カーネル）に基づいて文字の太さを調整する（図４（ｃ））。

次に、Ｓ１１１において、識別システム１００は、調整文字を判別部１１０に入力することにより、判別部１１０から当該調整文字に対応する標準文字を取得する。これにより、識別システム１００は、調整文字に対応する標準文字を特定できる。なお、判別部１１０は、調整文字と、当該調整文字に対応付けられた標準文字とを入力データとして、予め学習される。

なお、上記において、算出部１０７は、第１画素量と第１特徴値とに基づいて、所定の文字の第２特徴値を算出することとして説明したが、これに限定されない。例えば、算出部１０７は、例えば、水平方向および垂直方向、又は水平方向に沿う部分が多い文字（例えば、第１記号）に関しては、実際の文字の太さとほぼ等しい値を第２特徴値として算出してもよい。また、算出部１０７は、例えば、斜め方向に沿う部分が多い文字（例えば、第２記号）に関しては、実際の文字の太さを示す値よりも太い文字となる値を第２特徴値として算出してもよい。そして、調整部１０９は、このような第２特徴値に基づいて、文字の太さを調整する。そのため、斜め方向に沿う部分が多い「ノ」のような文字と、斜め方向に沿う部分が少ない「一」のような文字とでは、それぞれの文字の太さを同じように調整しようとすると、見た目の太さが異なることになる。結果として、判別部１１０において、斜め方向に沿う部分が多い文字と、斜め方向に沿う部分が少ない文字との見た目を同じように調整しようとするものと比べ、斜め方向に沿う部分を有する文字の特徴を捉えることができ、文字の識別精度を向上させることができる。
＝＝＝第２実施形態に係る識別システム２００＝＝＝

＜＜構成＞＞
図６～図８を参照して、第２実施形態に係る識別システム２００について説明する。図６は、表示領域に表示された文字を示す図である。図７は、文字の座標を説明するための図である。図８は、移動量を説明するための図である。

識別システム２００は、読取器で読み取られて所定の表示領域に表示された文字につき、当該表示領域における位置を調整する。これにより、識別システム２００は、学習データを増大させることができ、又、文字の認識精度を向上させることができる。

第２実施形態に係る識別システム２００は、第１実施形態に係る識別システム１００における特定部１０６、算出部１０７、および調整部１０９を、特定部２０６、算出部２０７、および調整部２０９に置き換え、又は付加したものである。したがって、以下に述べられる以外の構成要素は、第１実施形態に係る識別システム１００と同様のものとして、その説明を省略する。

なお、第２実施形態に係る識別システム２００は、例えば、第１実施形態に係る識別システム１００の機能を含んでいてもよい。すなわち、識別システム１００は、文字の太さを調整する機能を有していてもよい。

特定部２０６は、例えば、所定の文字を表示する表示領域における、所定の文字を構成する画素それぞれの位置を示す位置情報を特定する。ここで、「表示領域」とは、例えば、図６に示すような、読取器で読み取られた一つの文字を表示する領域である。なお、図６では、一例として手書き文字を示している。また、「位置情報」とは、例えば、表示領域における、所定の文字を構成する画素それぞれの座標を示す情報である。具体的には、図７に示すように、位置情報は、文字が表示される表示領域において、画像座標系の座標を示す情報である。画像座標系は、ｘ軸およびｙ軸の二つの軸で形成され、例えば、表示領域における、ｘ座標の範囲が０～２８のピクセルの幅であり、ｙ座標の範囲が０～２８のピクセルの幅であるとき、座標（ｘ，ｙ）とすると、紙面上における、左上の端が座標（０，０）となり、右下の端が座標（２８，２８）となる。なお、以下、図７，図８では、説明の便宜上、手書き文字を表示領域に概念的に示すこととする。

特定部２０６は、例えば基準位置を特定する。ここで、「基準位置」とは、表示領域において文字の移動量を決定するための基準となる位置であり、例えば表示領域の中心の位置である。なお、表示領域の中心の位置（以下「中心座標」という。）は、表示領域における、ｘ座標の範囲の中心と、ｙ座標の範囲の中心との交点であり、例えば図７に示す中心座標（１４，１４）である。

算出部２０７は、例えば、基準位置を示す基準情報と、位置情報と、に基づいて、表示領域に表示される文字を構成する画素の位置の移動量を調整量として算出する。以下、算出部２０７における移動量の算出方法の一例につき説明する。

算出部２０７は、例えば、位置情報に基づいて、文字を構成する画素それぞれの座標の平均を示す平均座標を算出する。具体的には、算出部２０７は、文字を構成する画素それぞれの座標が（ｘ１，ｙ１）、（ｘ２，ｙ２）、・・（ｘｎ，ｙｎ）である場合、ｘ１～ｘｎを平均して「ｘ０」を算出し、ｙ１～ｙｎを平均して「ｙ０」を算出して、平均座標（ｘ０，ｙ０）を求める。例えば、図７においては、平均座標（１８，１０）となる。

算出部２０７は、平均座標と、基準位置たる中心座標との差分を移動量として算出する。例えば、図７において、算出部２０７は、ｘ座標の移動量を「１４－ｘ０」とし、ｙ座標の移動量を「１４－ｙ０」として算出する。なお、算出部２０７は、平均座標を算出することに替えて、文字を構成する画素の座標における、最頻出な座標を示す最頻出座標や、中間を示す中間座標を算出してもよい。

調整部２０９は、例えば、移動量に基づいて、表示領域における文字を構成する全ての画素の位置を調整する。具体的には、調整部２０９は、例えば、図７に示す座標（１１，２）の画素に対して、ｘ座標において「１１」に「１４－ｘ０」を加えたものをｘ座標の値とし、ｙ座標において「２」に「１４－ｙ０」を加えたものをｙ座標の値として、座標を調整する。例えば、図７に示す座標（１１，２）については、座標（７，６）に移動される。調整部２０９は、同様に、全ての画素の座標について調整する。これにより、調整部２０９は、図７に示す文字を、図８に示すように表示領域の中央部に移動させることができる。

よって、識別システム２００は、読取器で読み取った文字の位置を表示領域内で統一できるため、文字認識の精度を向上できる。さらに、識別システム２００は、判別部２１２（判別部１１０に相当）を学習する際に用いられる学習データ、検証データ、及びテストデータを新たに生成できる。換言すると、一つの文字から位置の異なる複数の文字を生成できるため、判別部２１２に入力する学習に関するデータを増大させて、判別部２１２の認識精度を向上できる。

なお、上述した識別システム２００は、平均座標と基準位置との差分を移動量として算出する。そのため、文字に外接矩形を設定し、その外接矩形の中心を文字の中心とみなして文字の位置を調整する方法に比してノイズに強い。補足すると、文字に外接矩形を設定する方法では、文字の外側にノイズが存在する場合に、外接矩形が大きくなり文字の中心位置が不正確となる。これに対し、識別システム２００では、文字を構成する画素それぞれの座標の平均座標（ｘ０，ｙ０）から移動量を算出するので、ノイズの影響を抑えることができる。

＜＜処理手順＞＞
図９、図１０を参照して、識別システム２００の処理手順について説明する。図９は、識別システム２００の処理手順の一例を示すフロー図である。図１０は、識別システム２００によって文字の位置が調整される様子を示す図である。図１０（ａ）は、位置が調整される前の文字を示す。図１０（ｂ）は、位置が調整された文字を示す。

Ｓ２０１～Ｓ２０３は、Ｓ１０１～１０３と同じであるため、その説明を省略する。

Ｓ２０４において、識別システム２００は、特定部２０６で、表示領域に表示される文字を構成する画素それぞれの位置情報を特定する。次に、Ｓ２０５において、識別システム２００は、特定部２０６で、表示領域において文字の移動量を決定するための基準となる基準位置を特定する。次に、Ｓ２０６において、識別システム２００は、算出部２０７で、文字を構成する画素の平均座標を算出する。次に、Ｓ２０７において、識別システム２００は、算出部２０７で、文字を移動させる移動量を算出する。次に、Ｓ２０８において、識別システム２００は、調整部２０９で、文字を構成する画素それぞれを移動量だけ移動させる。これにより、文字の位置を調整することができる（図１０（ｂ））。

次に、Ｓ２０９において、識別システム２００は、位置が調整された文字を判別部に入力することにより、判別部２１２から当該調整された文字に対応する標準文字を取得する。これにより、識別システム２００は、当該調整された文字に対応する標準文字を特定できる。なお、判別部２１２は、例えば、当該調整された文字と、当該調整された文字に対応付けられた標準文字とを入力データとして、予め学習される。
＝＝＝第３実施形態に係る識別システム３００＝＝＝

＜＜構成＞＞
図１１を参照して、第３実施形態に係る識別システム３００について説明する。図１１は、識別システム３００における標準偏差と拡大率を説明するための図である。

第３実施形態に係る識別システム３００は、読取器で読み取られて所定の表示領域に表示された文字の大きさを調整する。これにより、識別システム３００は、学習データを増大させることができ、又、文字の認識精度を向上させることができる。

第３実施形態に係る識別システム３００は、第１実施形態に係る識別システム１００における特定部１０６、算出部１０７、および調整部１０９につき、特定部３０６、算出部３０７、および調整部３０９に置き換え、又は付加したものである。したがって、以下に述べられる以外の構成要素は、第１実施形態に係る識別システム１００と同様のものとして、その説明を省略する。

なお、第３実施形態に係る識別システム３００は、例えば、第１実施形態に係る識別システム１００および第２実施形態に係る識別システム２００の機能を含んでいてもよい。すなわち、識別システム３００は、例えば、文字の太さを調整する機能、および文字の位置を調整する機能を有していてもよい。

以下、第２実施形態に係る識別システム２００の機能（文字の位置を調整する機能）を含んでいるものとして説明することとし、識別システム２００の機能により、文字の位置が調整された状態で、文字の大きさを調整する処理について説明する。よって、図１１に示す文字は、表示領域における中央部に移動されたものを示している。

特定部３０６は、例えば、表示領域に表示される文字を構成する画素それぞれの位置を示す位置情報を特定する。特定部３０６は、第２実施形態に係る識別システム２００の特定部２０６と同様であるため、その説明を省略する。

算出部３０７は、例えば、位置情報に基づいて、表示領域に表示される文字を構成する画素の位置に関する偏りを調整量として算出する。換言すると、算出部３０７は、例えば、表示領域に表示される全ての画素の座標につき、平均偏差や標準偏差を算出する。以下、一例として、算出部３０７において、「標準偏差」が算出されるものとして説明する。具体的には、算出部３０７は、文字を構成する画素それぞれの座標が（ｘ１，ｙ１）、（ｘ２，ｙ２）、・・（ｘｎ，ｙｎ）である場合、ｘ１～ｘｎの標準偏差ｓを算出し、ｙ１～ｙｎの標準偏差ｔを算出する。なお、算出部３０７は、算出部２０７で算出されることを説明した平均座標（ｘ０，ｙ０）を用いて、標準偏差ｓ、標準偏差ｔを算出する。

これにより、算出部３０７は、表示領域に表示される文字を構成する画素における、中心座標（ｘ０，ｙ０）からのバラつきを算出できる。換言すると、標準偏差ｓは文字におけるｘ軸に沿った方向の大きさを示し、標準偏差ｔは文字におけるｙ軸に沿った方向の大きさを示す。

調整部３０９は、標準偏差ｓ、標準偏差ｔに基づいて、表示領域に表示された文字を構成する画素が占める領域を調整する。具体的には、調整部３０９は、例えば、予め定められた文字の大きさを示す定数ｕを、標準偏差ｓで除して、ｘ軸に沿った方向（以下「ｘ方向」という。）への拡大率Ｅｘを算出する。また、調整部３０９は、定数ｕを、標準偏差ｔで除して、ｙ軸に沿った方向（以下「ｙ方向」という。）への拡大率Ｅｙを算出する。なお、定数ｕは、ｘ方向の大きさと、ｙ方向の大きさとが同じである文字を示す定数である。

これにより、図１１に示すように、調整部３０９は、表示領域に表示された文字を、中心座標を中心として、ｘ方向に拡大率Ｅｘ倍し、ｙ方向に拡大率Ｅｙ倍して、調整する。なお、図１１は、拡大される様子を概念的に示しているのであって、正確な計算に基づいて示されていない。また、図１１では、ｙ方向の文字の中心と、中心座標のｙ座標が一致しないため、ズレが生じているが、認識精度に与える影響は無視できるものである。

なお、上記では、文字をｘ方向およびｙ方向において同じ大きさの文字に調整するよう説明したが、これに限定されない。例えば、調整部３０９は、例えば、定数ｕを標準偏差ｓで除した結果を、ｘ方向への拡大率Ｅｘとｙ軸方向への拡大率Ｅｙとして算出する。これにより、文字のｘ方向およびｙ方向の比率を維持しつつ、文字のｘ方向の大きさを、予め定められた大きさに調整できる。

また、例えば、調整部３０９は、例えば、定数ｕを標準偏差ｔで除した結果を、ｘ方向への拡大率Ｅｘとｙ軸方向への拡大率Ｅｙとして算出する。これにより、文字のｘ方向およびｙ方向の比率を維持しつつ、文字のｙ方向の大きさを、予め定められた大きさに調整できる。

よって、識別システム３００は、読取器で読み取った文字の大きさを拡大または縮小することにより、その文字の大きさを表示領域内で統一できるため、文字認識の精度を向上できる。さらに、識別システム３００は、判別部３１２（判別部１１０に相当）を学習する際に用いられる学習データ、検証データ、及びテストデータを新たに生成できる。換言すると、一つの文字から大きさの異なる複数の文字を生成できるため、判別部３１２に入力する学習に関するデータを増大させて、判別部３１２の認識精度を向上できる。

なお、上述した識別システム３００は、標準偏差ｓ、ｔに基づいて、表示領域に表示された文字を構成する画素が占める領域を調整する。そのため、文字に外接矩形を設定し、その外接矩形の中心を文字の中心とみなして文字の大きさを調整する方法に比してノイズに強い。補足すると、文字に外接矩形を設定する方法では、文字の外側にノイズが存在する場合に、外接矩形の領域のうち文字以外の部分が大きくなる。そのため、文字以外の部分が、文字の大きさの調整に与える影響が大きくなる。これに対し、識別システム３００では、標準偏差ｓ、ｔに基づいて文字の拡大率Ｅｘ、Ｅｙを算出し、文字の大きさを調整するので、文字の外側にノイズが存在したとしても、そのノイズの影響を抑えることができる。

＜＜処理手順＞＞
図１２、図１３を参照して、識別システム３００の処理手順について説明する。図１２は、識別システム３００の処理手順の一例を示すフロー図である。図１３は、識別システム３００によって文字の大きさが調整される様子を示す図である。図１３（ａ）は、位置が調整される前の文字を示す。図１３（ｂ）は、大きさが調整された文字を示す。

Ｓ３０１～Ｓ３０３は、Ｓ１０１～１０３と同じであるため、その説明を省略する。また、Ｓ３０４は、Ｓ２０４～Ｓ２０８と同じであるため、その説明を省略する。

Ｓ３０５において、識別システム３００は、算出部３０７で、表示領域に表示される全ての画素の座標の標準偏差（平均偏差などでもよい）を算出する。次に、Ｓ３０６において、識別システム３００は、算出部３０７で、文字におけるｘ方向およびｙ方向それぞれの拡大率を算出する。次に、Ｓ３０７において、識別システム３００は、調整部３０９で、文字をｘ方向およびｙ方向それぞれの拡大率にて調整する。これにより、文字の大きさを調整することができる（図１３（ｂ））。

次に、Ｓ３０８において、識別システム３００は、大きさが調整された文字を判別部３１２に入力することにより、判別部から当該調整された文字に対応する標準文字を取得する。これにより、識別システム３００は、当該調整された文字に対応する標準文字を特定できる。なお、判別部３１２は、例えば、当該調整された文字と、当該調整された文字に対応付けられた標準文字とを入力データとして、予め学習される。
＝＝＝第４実施形態に係る識別システム４００＝＝＝

第４実施形態に係る識別システム４００は、例えば、第１実施形態に係る識別システム１００の調整部１０９における文字の太さを調整する機能（以下、「太さ調整機能」という）、第２実施形態に係る識別システム２００の調整部２０９における文字の位置（移動量）を調整する機能（以下、「位置調整機能」という）、第３実施形態に係る識別システム３００の調整部３０９における文字の大きさ（拡大率、縮小率など）と調整する機能（以下、「大きさ調整機能」という）の少なくともいずれかを備え、一つの文字を識別するシステムである。そして、識別システム４００は、例えば、一つの文字に対して少なくとも一つの条件で調整した少なくとも一つの文字を用いて学習されたニューラルネットワークを含む判別部４１０を備える。ここで、「条件」とは、例えば、上述した太さ調整機能、位置調整機能、または大きさ調整機能である。識別システム４００は、判別部４１０を利用して、例えば、第１の識別方法と、第２の識別方法とにより、文字を識別することができる。

識別システム４００における第１の識別方法は、例えば、一つの文字に対して複数の条件で調整した複数の文字を用いて学習された判別部４１０に対して、識別する対象の文字を調整せずに入力することで、文字を識別する方法である。また、識別システム４００における第２の識別方法は、例えば、一つの文字に対して所定の条件で調整した一つの文字を用いて学習された判別部４１０に対して、識別する対象の文字を所定の条件で調子した後に入力することで、文字を識別する方法である。以下、第１の識別方法および第２の識別方法の一例について具体的に説明する。

まず、図１４を参照して、第１の識別方法について説明する。図１４は、第１の識別方法に関する処理手順の一例を示すフロー図である。

Ｓ４０１において、識別システム４００は、太さ調整機能、位置調整機能、または大きさ調整機能のうち少なくともいずれかによって、例えば不特定の文字を調整する。具体的には、識別システム４００は、例えば、太さ調整機能および位置調整機能を用いて文字を調整してもよい、位置調整機能および大きさ調整機能を用いて文字を調整してもよいし、全ての機能を用いて文字を調整してもよく、その組合せは限定されない。これにより、識別システム４００は、太さ、位置、または大きさを調整した、判別部４１０の学習用のデータを生成することができる。すなわち、一つの文字に対して、文字の太さを調整すること、文字の位置を調整すること、文字の大きさを調整することを組み合わせて複数の調整した文字を生成することができるため、判別部４１０の学習データを増やすことができる。よって、識別システム４００は、判別部４１０の学習効果を向上できる。

次に、Ｓ４０２において、識別システム４００は、判別部４１０に、Ｓ４００で調整された文字を入力する。判別部４１０は、調整された文字でニューラルネットワークをチューニングする。次に、Ｓ４０３において、識別システム４００は、チューニングされた判別部４１０に、識別対象の文字を含む画像を入力する。換言すると、第１の識別方法では、チューニングされた判別部４１０に、調整されていない文字を入力する。Ｓ４０４において、識別システム４００は、判別部４１０において、識別対象の文字に対応する例えば標準文字が特定される。

次に、図１５を参照して、第２の識別方法について説明する。図１５は、第２の識別方法に関する処理手順の一例を示すフロー図である。

Ｓ５０１において、識別システム４００は、太さ調整機能、位置調整機能、または大きさ調整機能のうち少なくともいずれか（以下、所定の調整機能という）によって、例えば不特定の文字を調整する。各機能の組合せは限定されない。次に、Ｓ５０２において、識別システム４００は、判別部４１０に、Ｓ５０１において所定の調整機能で調整された文字を入力する。判別部４１０は、調整された文字でニューラルネットワークをチューニングする。次に、Ｓ５０３において、識別システム４００は、例えば、識別対象の文字を、Ｓ５０１における所定の調整機能によって、調整する。すなわち、第２の識別方法では、学習データを生成するための調整方法と、識別対象の文字の前処理における調整方法とを統一する。これにより、判別部４１０の認識精度を向上できる。Ｓ５０４において、識別システム４００は、チューニングされた判別部４１０に、前処理された識別対象の文字を含む画像を入力する。換言すると、第２の識別方法では、チューニングされた判別部４１０に、調整された文字を入力する。Ｓ５０５において、識別システム４００は、判別部４１０において、識別対象の文字に対応する例えば標準文字が特定される。
＝＝＝ハードウェア＝＝＝

図１６を参照して、識別システム１００～３００をコンピュータ１０００により実現する場合のハードウェア構成の一例を説明する。なお、識別システム１００～３００の各種機能は、複数台の装置に分けて実現することもできる。

図１６は、コンピュータのハードウェア構成の一例を示す図である。図１６に示すように、コンピュータ１０００は、プロセッサ１００１と、メモリ１００２と、記憶装置１００３と、入力Ｉ／Ｆ部１００４と、データＩ／Ｆ部１００５と、通信Ｉ／Ｆ部１００６、及び表示装置１００７を含む。

プロセッサ１００１は、メモリ１００２に記憶されているプログラムを実行することによりコンピュータ１０００における各種の処理を制御する制御部である。

メモリ１００２は、例えばＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）等の記憶媒体である。メモリ１００２は、プロセッサ１００１によって実行されるプログラムのプログラムコードや、プログラムの実行時に必要となるデータを一時的に記憶する。

記憶装置１００３は、例えばハードディスクドライブ（ＨＤＤ）やフラッシュメモリ等の不揮発性の記憶媒体である。記憶装置１００３は、オペレーティングシステムや、上記各構成を実現するための各種プログラムを記憶する。

入力Ｉ／Ｆ部１００４は、ユーザからの入力を受け付けるためのデバイスである。入力Ｉ／Ｆ部１００４の具体例としては、キーボードやマウス、タッチパネル、各種センサ、ウェアラブル・デバイス等が挙げられる。入力Ｉ／Ｆ部１００４は、例えばＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）等のインタフェースを介してコンピュータ１０００に接続されても良い。

データＩ／Ｆ部１００５は、コンピュータ１０００の外部からデータを入力するためのデバイスである。データＩ／Ｆ部１００５の具体例としては、各種記憶媒体に記憶されているデータを読み取るためのドライブ装置等がある。データＩ／Ｆ部１００５は、コンピュータ１０００の外部に設けられることも考えられる。その場合、データＩ／Ｆ部１００５は、例えばＵＳＢ等のインタフェースを介してコンピュータ１０００へと接続される。

通信Ｉ／Ｆ部１００６は、コンピュータ１０００の外部の装置と有線又は無線により、インターネットＮを介したデータ通信を行うためのデバイスである。通信Ｉ／Ｆ部１００６は、コンピュータ１０００の外部に設けられることも考えられる。その場合、通信Ｉ／Ｆ部１００６は、例えばＵＳＢ等のインタフェースを介してコンピュータ１０００に接続される。

表示装置１００７は、各種情報を表示するためのデバイスである。表示装置１００７の具体例としては、例えば液晶ディスプレイや有機ＥＬ（Ｅｌｅｃｔｒｏ－Ｌｕｍｉｎｅｓｃｅｎｃｅ）ディスプレイ、ウェアラブル・デバイスのディスプレイ等が挙げられる。表示装置１００７は、コンピュータ１０００の外部に設けられても良い。その場合、表示装置１００７は、例えばディスプレイケーブル等を介してコンピュータ１０００に接続される。また、入力Ｉ／Ｆ部１００４としてタッチパネルが採用される場合には、表示装置１００７は、入力Ｉ／Ｆ部１００４と一体化して構成することが可能である。
＝＝＝まとめ＝＝＝

本実施形態における識別方法は、文字を構成する画素に関する画素情報に基づいて、文字に関する調整量を算出する算出部４０７と、調整量に基づいて、文字の形状又は位置のうち少なくともいずれかを調整する調整部４０９と、を備える識別システム４００（情報処理システム）を用いて調整された文字により学習されたニューラルネットワーク（モデル）により、入力文字を識別する識別方法であって、ニューラルネットワークは、一つの文字に対して複数の条件で調整した複数の文字を用いて学習されたものであり、入力文字を含む画像を取得し、入力文字を識別システム４００の調整部４０９により調整せずに、ニューラルネットワークを用いて判別する。これにより、一つの文字を調整して実質的に複数の文字を生成することができるため、判別部４１０の学習データを増やすことができる。よって、判別部４１０の学習効果を向上できる。

本実施形態における識別方法は、文字を構成する画素に関する画素情報に基づいて、文字に関する調整量を算出する算出部４０７と、調整量に基づいて、文字の形状又は位置のうち少なくともいずれかを調整する調整部４０９と、を備える識別システム（情報処理システム）を用いて調整された文字により学習されたニューラルネットワークにより、入力文字を識別する識別方法であって、ニューラルネットワークは、一つの文字に対して所定の条件で調整した一つの文字を用いて学習されたものであり、入力文字を含む画像を取得し、入力文字を識別システム４００（情報処理システム）により調整し、調整された入力文字をニューラルネットワークを用いて判別する。これにより、学習データを生成するための調整方法と、識別対象の文字の前処理における調整方法とを統一して、判別部４１０の認識精度を向上できる。

本実施形態における識別システム１００～３００は、文字を構成する画素に関する画素情報に基づいて、文字に関する調整量（例えば、特徴値、移動量、偏りなど）を算出する算出部１０７と、調整量（例えば、特徴値、移動量、偏りなど）に基づいて、文字の形状又は位置のうち少なくともいずれかを調整する調整部１０９と、を備える。これにより、テキスト画像の文字の形状又は位置を適切に調整することができる。

第１実施形態における識別システム１００において、算出部１０７は、文字を構成する第１画素数（画素数）と、文字の外周部を構成する第２画素数（画素数）と、に基づいて、文字に関する調整量（例えば、第１特徴値、第２特徴値）を算出する。これにより、テキスト画像の文字の太さを示す調整量（第２特徴値）を適切、簡易に特定することができる。

また、第１実施形態における識別システム１００において、算出部１０７は、文字を構成する第１画素量（画素数）と、文字の外周部を構成する第２画素量（画素数）を「２」で除した第１特徴値（値）と、に基づいて、調整量（第２特徴値）を算出する。これにより、文字の太さの概念を適切、容易に表現することができるため、調整部１０９における調整が容易となる。

また、本実施形態における識別システム１００は、所定の特徴量を有する文字で学習された判別部１１２に、調整部１１１で調整された文字を入力する入力部１０３と、判別部１１２で判定された識別結果を取得する取得部１０２と、をさらに備える。これにより、機械学習による文字の認識結果を容易に得ることができる。

第２実施形態における識別システム２００において、算出部２０７は、文字を表示する表示領域における、文字を構成する画素それぞれの位置を示す位置情報と、所定の基準位置を示す基準情報と、に基づいて、文字を構成する画素の位置の移動量を調整量として算出し、調整部２０９は、移動量に基づいて、表示領域における文字を構成する画素の位置を調整する。これにより、読取器で読み取られて所定の表示領域に表示された文字の位置を調整することができるため、学習データを増大させることができ、又、文字の認識精度を向上させることができる。

また、第２実施形態における識別システム２００において、算出部２０７は、位置情報に基づいて、文字を構成する画素の座標における、平均を示す平均座標、最頻出な座標を示す最頻出座標、中間を示す中間座標のうち少なくともいずれかを算出し、平均座標、最頻出座標、又は中間座標のうち少なくともいずれかと、基準位置を示す座標と、の差分を移動量として算出する。これにより、より適切に、表示領域の中心に文字を移動させることができるため、文字の認識精度を向上させることができる。

第３実施形態における識別システム３００において、算出部３０７は、文字を表示する表示領域における、文字を構成する画素それぞれの位置を示す位置情報に基づいて、表示領域における文字を構成する画素の位置に関する偏りを調整量として算出し、調整部３０９は、偏りに基づいて、表示領域における文字を構成する画素が占める領域を調整する。これにより、読取器で読み取られて所定の表示領域に表示された文字の大きさを調整することができるため、学習データを増大させることができ、又、文字の認識精度を向上させることができる。

また、第３実施形態における識別システム３００において、偏りは、平均偏差または標準編差のいずれかである。これにより、文字の大きさをより適切に調整することができる。

また、第３実施形態における識別システム３００において、調整部３０９は、所定位置の座標から水平方向又は垂直方向のうち少なくともいずれかに、画素が占める領域を偏りに基づいて拡大又は縮小のうち少なくともいずれかを行う。これにより、読取器で読み取った文字の大きさを表示領域内で統一できるため、文字認識の精度を向上できる。

また、調整された文字により学習されたニューラルネットワークにより、入力文字を識別する識別システム４００であって、ニューラルネットワークは、一つの文字に対して所定の条件で調整した一つの文字を用いて学習されたものであり、入力文字を含む画像を取得するための取得部４０２と、入力文字を識別システム４００により調整し、調整された入力文字をニューラルネットワークを用いて判別する判別部４１０と、を備える。これにより、学習データを生成するための調整方法と、識別対象の文字の前処理における調整方法とを統一して、判別部４１０の認識精度を向上できる。

また、調整された文字により学習されたニューラルネットワークにより、入力文字を識別する識別システム４００であって、モデルは、一つの文字に対して複数の条件で調整した複数の文字を用いて学習されたものであり、入力文字を含む画像を取得するための取得部４０２と、入力文字を識別システム４００により調整せずに、ニューラルネットワークを用いて判別する判別部４１０と、を備える。これにより、一つの文字を調整して実質的に複数の文字を生成することができるため、判別部４１０の学習データを増やすことができる。よって、識別システム４００は、判別部４１０の学習効果を向上できる。

１００，２００，３００，４００…識別システム、１０１…記憶部、１０２…取得部、１０３…入力部、１０４…除去部、１０５…二値化部、１０６，２０６，３０６，４０６…特定部、１０７，２０７，３０７，４０７…算出部、１０８，２０８，３０８，４０８…判定部、１０９，２０９，３０９，４０９…調整部、１１０，２１０，３１０，４１０…判別部。

Claims

文字を構成する画素に関する画素情報に基づいて、前記文字に関する調整量を算出する算出部と、前記調整量に基づいて、前記文字の形状又は位置のうち少なくともいずれかを調整する調整部と、を備える情報処理システム、を用いて調整された文字により学習されたモデルにより、入力文字を識別する識別方法であって、
前記モデルは、一つの文字に対して複数の条件で調整した複数の文字を用いて学習されたものであり、
前記入力文字を含む画像を取得し、
前記入力文字を前記情報処理システムにより調整せずに、前記モデルを用いて判別する、
識別方法。
文字を構成する画素に関する画素情報に基づいて、前記文字に関する調整量を算出する算出部と、前記調整量に基づいて、前記文字の形状又は位置のうち少なくともいずれかを調整する調整部と、を備える情報処理システム、を用いて調整された文字により学習されたモデルにより、入力文字を識別する識別方法であって、
前記モデルは、一つの文字に対して所定の条件で調整した一つの文字を用いて学習されたものであり、
前記入力文字を含む画像を取得し、
前記入力文字を前記情報処理システムにより前記所定の条件で調整し、調整された入力文字を前記モデルを用いて判別する、
識別方法。
文字を構成する画素に関する画素情報に基づいて、前記文字に関する調整量を算出する算出部と、
前記調整量に基づいて、前記文字の形状又は位置のうち少なくともいずれかを調整する調整部と、
を備える情報処理システム。
前記算出部は、
前記文字を構成する画素数、前記文字の外周部を構成する画素数と、に基づいて、前記調整量を算出する、
請求項３に記載の情報処理システム。
前記算出部は、
前記文字を構成する画素数と、前記文字の外周部を構成する画素数を２で除した値と、に基づいて、前記調整量を算出する、
請求項３又は４に記載の情報処理システム。
所定の特徴量を有する文字で学習された判別部に、前記調整部で調整された文字を入力する入力部と、
前記判別部で判別された識別結果を取得する取得部と、
をさらに備える請求項３から５のいずれか１項に記載の情報処理システム。
前記算出部は、前記文字を表示する表示領域における、前記文字を構成する画素それぞれの位置を示す位置情報と、所定の基準位置を示す基準情報と、に基づいて、前記文字を構成する画素の位置の移動量を前記調整量として算出し、
前記調整部は、前記移動量に基づいて、前記表示領域における前記文字を構成する画素の位置を調整する、
請求項３から６のいずれか一項に記載の情報処理システム。
前記算出部は、
前記位置情報に基づいて、前記文字を構成する画素の座標における、平均を示す平均座標、最頻出な座標を示す最頻出座標、中間を示す中間座標のうち少なくともいずれかを算出し、
前記平均座標、前記最頻出座標、又は前記中間座標のうち少なくともいずれかと、前記基準位置を示す座標と、の差分を前記移動量として算出する、
請求項７に記載の情報処理システム。
前記算出部は、前記文字を表示する表示領域における、前記文字を構成する画素それぞれの位置を示す位置情報に基づいて、前記表示領域における前記文字を構成する画素の位置に関する偏りを前記調整量として算出し、
前記調整部は、前記偏りに基づいて、前記表示領域における前記文字を構成する画素が占める領域を調整する、
請求項３から８のいずれか一項に記載の情報処理システム。
前記偏りは、平均偏差または標準編差のいずれかである、
請求項９に記載の情報処理システム。
前記調整部は、所定位置の座標から水平方向又は垂直方向のうち少なくともいずれかに、前記画素が占める領域を前記偏りに基づいて拡大又は縮小のうち少なくともいずれかを行う、
請求項９又は１０のいずれか一項に記載の情報処理システム。
請求項３から１１のいずれか一項に記載の情報処理システムを用いて調整された文字により学習されたモデルにより、入力文字を識別する識別システムであって、
前記モデルは、一つの文字に対して所定の条件で調整した一つの文字を用いて学習されたものであり、
前記入力文字を含む画像を取得するための取得部と、
前記入力文字を前記情報処理システムにより前記所定の条件で調整し、調整された入力文字を前記モデルを用いて判別する判別部と、
を備える、識別システム。
請求項３から１１のいずれか一項に記載の情報処理システムを用いて調整された文字により学習されたモデルにより、入力文字を識別する識別システムであって、
前記モデルは、一つの文字に対して複数の条件で調整した複数の文字を用いて学習されたものであり、
前記入力文字を含む画像を取得するための取得部と、
前記入力文字を前記情報処理システムにより調整せずに、前記モデルを用いて判別する判別部と、
を備える、識別システム。
請求項１又は２に記載の識別方法をコンピュータに実現させるためのプログラム。
コンピュータが、
文字を構成する画素に関する画素情報に基づいて、前記文字に関する調整量を算出することと、
前記調整量に基づいて、前記文字の形状又は位置のうち少なくともいずれかを調整することと、
を実行する方法。
コンピュータに、
文字を構成する画素に関する画素情報に基づいて、前記文字に関する調整量を算出することと、
前記調整量に基づいて、前記文字の形状又は位置のうち少なくともいずれかを調整することと、
を実行させるためのプログラム。