JP2016110468A - 文字分析システム及び文字分析方法 - Google Patents

文字分析システム及び文字分析方法 Download PDF

Info

Publication number
JP2016110468A
JP2016110468A JP2014248537A JP2014248537A JP2016110468A JP 2016110468 A JP2016110468 A JP 2016110468A JP 2014248537 A JP2014248537 A JP 2014248537A JP 2014248537 A JP2014248537 A JP 2014248537A JP 2016110468 A JP2016110468 A JP 2016110468A
Authority
JP
Japan
Prior art keywords
character
image
analysis system
input
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014248537A
Other languages
English (en)
Inventor
利昇 三好
Toshinori Miyoshi
利昇 三好
義行 小林
Yoshiyuki Kobayashi
義行 小林
新庄 広
Hiroshi Shinjo
広 新庄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2014248537A priority Critical patent/JP2016110468A/ja
Publication of JP2016110468A publication Critical patent/JP2016110468A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】異体字などの多字種文字認識では、文字の効率的な認識や入力が困難である。【解決手段】本発明では、字形がより単純な字形の組み合わせにより構成されていることを利用し分解する方法を提供する。具体的には、文字画像を細分化し、細分化した要素が、字の中で共起する回数に基づいて、文字の部品を定め、字を分解する。文字入力の際に文字分解情報を利用した候補文字の絞り込みや、フォントの生成を行い、文字の効率的な入力を支援する。【選択図】 図3

Description

本発明は、文字を分析して構成要素に分解し、文字情報を生成する方法、および、生成した文字情報を用いた文字検索等に関する。
本技術分野は、文字分析システム及び文字分析方法に関する。通常、漢字等を入力する際に、漢字の読み方を入力し、読み方から提示された変換候補をユーザが選択することで、入力対象の文字を入力する。しかし、読み方が分からない場合などには、ユーザにマウス等を使って手書き文字を描いてもらい、その文字を文字認識装置で認識することにより、文字候補を出力し、ユーザが文字候補の中から最終的な入力文字を選択することで、文字を入力する。
特許文献1には、漢字を部首など予め用意された要素に基づいて検索する方法が記載されている。
特開2003−223439
部首など予め用意された要素に基づいた文字の分解技術では、認識し対応できる文字種の範囲に限界がある。文字画像から文字要素などを生成し、様々な種類の文字に対して高精度に対応する必要がある。
本発明のある実施形態によれば、複数の文字画像を格納する文字画像データベースを有する文字分析システムであって、文字画像を細分化した細分化画像を生成する文字画像細分化部と、細分化画像の文字画素の字形を分類し、細分化画像からなる文字要素を生成する分類部と、文字要素が文字画像のなかで出現する頻度である共起度に基づいて文字要素を合成して文字部品を生成し、文字画像を文字部品と関連づけて文字画像データベースに格納する文字部品生成部と、を有することを特徴とする文字分析システムが提供される。
文字要素の共起度を用いて文字画像から高精度に文字部品などを生成することが出来、より多くの文字種に対応することが出来る。
文字分解情報を用いた文字入力装置の処理例。 本実施例の文字入力装置の一例を示す構成図。 文字分解処理の一例を示す説明図。 異体字の例を説明する図。 文字要素画像のクラスタリングの一例を説明する図。 文字画像DBのデータ例を示す図。文字要素と文字などを格納するテーブルの例を説明する図。 文字要素IDと対応する文字要素画像の例を示す図。 文字IDと文字要素IDの例を示す図。 合成文字IDと合成文字画像と文字要素IDと共起数の例を示す図。 文字IDと文字要素、合成文字IDの対応テーブルの例を示す図。 文字分解情報のテーブルの例を説明する図。 文字領域と位置情報の例を説明する図。 文字領域と位置情報の例を説明する図。 強制切断の処理の例を説明する図。 強制切断の処理の例を説明する図。 統計的識別方法の例を説明する図。 文字画像のベクトルによるクラスタリングの例を説明する図。 検索時のユーザーインターフェイスの例を説明する図。
本発明の文字入力装置の実施例について、図表を参照しながら説明する。本実施例では、異体字をその構成要素に分解し、分解した要素を用いて文字入力を効率化する。
図2は、本実施例の文字入力装置の一例を示す構成図である。
本実施例の文字分析システム201は、ユーザの文字入力を支援する装置であり、入力装置202、表示装置203、イメージ取得装置204、通信装置205、演算装置(CPU)206、外部記憶装置207を備える。外部記憶装置207は、文字画像DB213、文字分解情報214を含む。
入力装置202は、コマンド等を入力するためのキーボードやマウス等である。入力装置202は、演算装置(CPU)206で実行されるプログラムの制御や、その他、接続機器の制御のために実行されるコマンド等を入力するための装置である。
表示装置203は、処理内容を適宜表示するディスプレイ等の装置である。
イメージ取得装置204は、スキャナなどのイメージ取得用の装置である。取得したイメージは、外部記憶装置等に記憶してもよい。
通信装置205は、PCやサーバ等の外部機器からのデータのやりとりを行うために用いる。通信装置205は、外部機器からのユーザによる実行コマンドの取得や、画像やテキストなどの情報の外部機器からの取得等の目的に用いられる。また、通信装置205は、処理内容を外部機器に送信する等の目的にも用いられる。
演算装置(CPU)206は、文字分解などの各種処理を実行する演算装置である。
外部記憶装置207は、HDD,メモリ等の外部記憶装置である。外部記憶装置207には、文字の画像や文字を構成要素に分解した情報などの各種データが保存されている。また、外部記憶装置には、演算装置(CPU)206によって実行される処理の途中で生成されるデータ等を一時的に記憶しておくためにも用いられる。
入力装置202、表示装置203、イメージ取得装置204、通信装置205はなくてもよい。入力装置202が無い場合には、処理の開始は、通信装置205を用いて外部機器から指示するか、または、時刻指定等により自動的に行う。表示装置203が無い場合には、処理結果は通信装置205を用いて外部機器に送信するか、外部記憶装置207に記憶しておく。
次に、本実施例における文字分析システム201によって実施される処理の説明に移る。以下では、まず、文字分解処理について、図3を用いて説明する。文字分解処理では、文字画像DB213を用いて文字分解情報214を作成する。文字分解情報214は、文字入力の際に用いられるが、文字入力の処理は、文字分解処理の後に説明する。
まず、字の種類の一つである異体字について説明する。図4に異体字の例を画像で示した。異体字とは、同等の意味を有するが互いに異なる形の字体をいう。図401のように、複雑な字形で一部のみが異なるものや、図402のように僅かに字形が異なるものなどがある。文字画像DB213は、このような異体字の文字画像が文字を識別するIDと文字コードなどの付加情報とともに保存されたものである。なお、文字画像DB213には、異体字以外にも、常用漢字などどのような文字種の画像が入っていてもよい。図6(A)のテーブル601に文字画像DBのデータ例を示した。文字を識別するIDと文字画像情報が含まれている。さらに、文字に対応するUTF、EUC、SJISなどの文字コード等、付加情報があれば、それらの情報を含んでいてもよい。
文字細分化301では、文字画像DB213に含まれる文字画像を細かい要素に細分化する。なお、以下の例では文字画像は予め2値化処理をしているものとする。その結果、黒画素と白画素の何れかになる。以降、細分化の例を説明する。ここで説明する例では、まず文字画像を連結成分ごとに分解し、接触部などは、さらに強制切断をすることで、文字を細かい要素に細分化する。連結成分ごとの分解のみの場合や、強制切断のみの場合もある。まず、連結成分ごとに分解する。図404は、図403の5つの文字をその連結成分(黒画素が繋がっている成分)ごとに分解した例である。連結成分でわけることにより、多くの文字要素を生成する事ができ、多くの文字種に対応できるようになる。
ただし、連結成分だけでは分離できない字形もあるため、強制切断などの方法を用いて、要素を細かく細分化してもよい。この処理では、細分化した文字を元の文字コードの情報とともに、出力する。なお、強制切断などによって、複数通りの細分化の仕方が生じた場合には、そのうちの一通りの細分化を選んでもよいし、それら複通りの細分化でできた文字要素を生成し、保存しておいてもよい。このとき、テーブル603のテーブルの文字要素IDには、複数の細分化でできた文字要素もまとめて保持しておく。
ここで、文字の強制切断の方法例を説明する。図10の1001では、矢印1007で示した箇所で、接触がある。このような場合には、連結成分ごとの分解では不十分であるため、強制切断によって、切り離す。この方法の一例について1001の左側の文字の例を用いて説明する。テーブル1002は、テーブル1001の左側の文字の接触部を拡大したものである。文字線1003と文字線1004が接触している。このとき、1005と1006に示す矢印のように文字線1005の輪郭を辿り、それを文字線1005に沿って少し延長した場合に、1005と1006は交わる。このような場合に、文字線1003と文字線1004を切り離すことにより切断する。
このことを画像1101の模式図を用いて説明する。画像1101のひとつのマスはひとつの画素を表わす。画像1101の輪郭を辿ると、1、2、3、…のようになる。ここで、輪郭は黒画素に接触している白画素のことであり、輪郭を辿るとは、隣接する輪郭を黒画素を右方向、または左方向に見て辿ることを意味するものとする。また、白画素と黒画素の境界線を辿るとしてもよい。ここで、輪郭位置4の部分で輪郭の角度が変化する(例えば、輪郭位置3から輪郭位置4に向かう方向と、輪郭位置4から輪郭位置5へ向かう方向が異なるがこの角度変化が予め定めた閾値以上である場合)が、このような部分を切断候補箇所として、この箇所から輪郭位置1,2,3,4に沿った方向に延長した直線を考える。すなわち、輪郭位置4の右下の画素、さらに右下の画素、のように延長する。逆に、輪郭位置8,輪郭位置9の方向からも輪郭位置9の左上の画素、さらに左上の画素、のように延長する。このように延長した2つの直線が交わるが、予め閾値を定めておき、延長数が閾値以下である場合には、この直線に沿って文字を切り離す。画像1101の例の場合には、画像1101に示すように画素10と画素11が延長された画素の数であり、この部分の画素が白画素になり文字が切り離される。なお、後に文字要素を合成して文字部品を生成するため、この処理では、過剰に文字を切り離してもよい。また、強制切断処理が無い場合には、画像1001のような例では分解ができないが、このようなケースは比較的少数であるため、一定の部品分解の効果は得られるため、この処理はなくてもよい。このようにして、強制切断を行うことにより連結成分ごとに分ける場合よりもさらに細分化した文字要素を生成し、より多くの文字種に対応することが可能となる。
クラスタリング302では、文字細分化301で生成した文字要素の画像を、その位置や字形が類似しているものはクラスタリングしてまとめる。図5に、図404の15個の文字要素画像をクラスタリングした例を示した。各行にまとめられた文字要素を並べている。この例では、位置や字形が類似した画像をまとめて、9種の画像にクラスタリングしている。ここで、クラスタリングされた文字要素画像同士を同一視し、それらを識別するIDをつける。図6(B)に記載のテーブル602にその例を示した。IDと、それに対応する文字要素画像が示されている。類似判定については以下に述べる。
クラスタリングでは、パターンマッチングの方法や統計的なクラスタリング方法などを用いることができる。統計的なクラスタリング方法を用いる場合には、各画像から特徴抽出を行い、ベクトルに変換する。これには勾配特徴、画素特徴などを用いることができる。ベクトルのクラスタリングには、k−meansや凝集法、EM−Algorithmなどを用いることができる。このときベクトル同士の距離について、ユークリッド距離を用いると、黒画素数が少ないもの同士は類似性が低くとも距離が小さく、黒画素が多いものは類似性が高くとも距離が大きいと判定されてしまう傾向がある。例えば、図13の文字要素1303と文字要素1304のユークリッド距離は、文字要素1305と文字要素1306のユークリッド距離よりも小さい。これは、黒画素が多い字形のほうが、一致しない画素の数が大きくなり、その分が距離として計算されてしまうためである。そのため、2つの画像の画素数でユークリッド距離を正規化してもよい。例えば、f(A,B)を2つの画像A,Bの黒画素数に対して単調非増加な関数として、ユークリッド距離にf(A,B)を掛けた値を距離としてもよい。例えば、f(A,B)としては、1÷(画像Aと画像Bの黒画素数の合計)や1÷√(画像Aと画像Bの黒画素数の合計)としてもよい。平方根をとったのは、黒画素数は面積に相当するため、黒画素領域のスケールを計算するためである。
ここで、文字要素を元の文字画像と結び付けるテーブルを作成しておくとよい。テーブルの例をテーブル603に示した。元の文字のID(第一列目)に対して、それを構成する文字要素のIDが第二列目に記されている。例えば、テーブル603より、要素IDがE001の文字要素は、テーブル601の文字IDがC01の文字に含まれていることが分かる。
ここまでの処理では、文字をなるべく細分化し、類似した位置や字形のものをまとめることにより、文字要素画像を生成する。しかし、この段階でできた要素画像は細かすぎる場合がある。例えば、「波」のような文字のさんずいの3つの点は3つの異なる文字要素画像に分解されるが、これらは文字の部品としては、ひとつのまとまりとして、扱いたい。つまり「波」の分解ではさんずいと皮の部分に分解したい。このように分解することで、偏や旁のような意味のあるまとまりに分解することができ、後に説明する入力支援に役立てることができる。
文字部品生成303では、文字要素が同じ文字の中で共起(出現)する回数をカウントし、共起回数に基づいて文字要素をまとめることで、文字の部品となる画像を生成する。例えば、さんずいの3つの点は、「波」、「池」、「濯」、など様々な文字で共起、つまり同時に現れる。このように同時に現れる文字要素同士を合成することで、さんずいを文字部品として取り出すことができる。以下で、文字要素から文字部品を生成する例について説明する。
文字部品生成の処理例を図3を用いて説明する。ここで挙げる例では、共起回数に予め定めた閾値Nを設定しておき、共起回数がN回以上共起する文字要素を合成対象とする。
共起数計算304では、2つの要素文字のペアのうち、共起回数が最大となるようなペアを探索する。そのようなペアは複数存在する場合もある。
共起回数判定305では、共起数計算304で得られた共起回数の最大値が閾値Nより大きいかどうかを判定する。大きい場合には、文字要素追加306に進み、小さい場合には、文字部品生成307に進む。ここでは、N=2とする。
合成文字生成306では、共起数計算304で得られた共起回数が最大又は予め定められた別の閾値よりも高くなるようなペアに対して、そのようなペアを合成した新たな合成文字を生成する。生成した合成文字はIDを付与し、合成元の文字要素ID、共起数の情報とともに保持しておく。
例えば、図6(C)のテーブル603の例では、文字C001と文字C004の2つの文字で、文字要素E002と文字要素E005、文字要素E002と文字要素E004、文字要素E004と文字要素E006、の3つのペアが共起している。図6(C)の例では、これらの2回の共起数の文字要素ペアが共起回数最大となるため、共起数計算304では、これら3つのペアが抽出される。そして、合成文字生成306では、これら3つのペアの合成文字を生成し、合成文字を識別するIDと合成元の文字要素IDの情報を保持しておく。図6(D)にその例を示した。ここまでの処理で、テーブル604の合成文字が生成される。
次に、共起数計算304では、共起回数が最大となるようなペアを探索する。ただし、2回目以降の共起数計算304の処理では、すでに探索済みのペアは対象から除く。つまり、ペアA,Bのうち、すでに合成文字生成306において合成文字として生成されたペアは探索対象から除く。
また、ペアとして、要素文字だけでなく、合成文字も対象とする。つまり、ペアA,Bの一方、または両方が合成文字のものも探索対象とする。これは、テーブル603の代わりにテーブル606の対応を共起の探索に用いることに相当する。ただし、合成文字は、A,Bを構成する文字要素は互いに重ならないものを対象とする。つまり、Aに対応する文字要素(Aが合成文字の場合にはそれを構成する文字要素)とBに対応する文字要素(Bが合成文字の場合にはそれを構成する文字要素)の間に重複がないようなペアを対象とする。例えば、合成文字I001と文字要素E002、合成文字I001と合成文字I002、などは共通する文字要素としてE002を含むため、探索対象としない。
テーブル606の例では、I001とE004, I002とE005, I003とE002 が文字C001と文字C004で共起しており、共起回数が最大となる。
次に、共起回数判定305では、共起数計算304で探索した共起回数を閾値Nと比べる。テーブル606の例では、2回共起しているため、合成文字生成306に進む。
合成文字生成306では、探索したペアを合成することにより合成文字を生成する。このとき、合成文字はその要素文字に展開する。つまり、I001とE004のペアは、合成文字I001をその要素文字E002とE005に展開し、3つの要素文字E001とE002とE005から成ると考える。そして、これを合成文字として追加する。テーブル605のI004がこの例である。今回の例の場合、残る2つのペアI002とE005, I003とE002についても、3つの要素文字E001とE002とE005から成るため、同じものは追加する必要がない。
次に、この例では、共起数計算304に進むが、最大共起数が1となり、共起回数判定305でN=2以下であるため、文字部品生成307に進む。ここまでの処理で、I004をそれを含む文字C001とC004のエントリーに追加すると図6(E)のテーブル607のようになる。
文字部品生成307では、各文字をテーブル607のような文字IDと文字要素、合成文字の対応テーブルを用いて、各文字をその部品に分解する。このとき、テーブル607の2列目の文字を構成する文字要素、合成文字の中から、文字を組み立てる組み合わせを選択する。ただし、文字を構成する文字要素と合成文字を文字要素に展開したものの集合に、文字要素の重複がないようにする。このとき、文字を組み立てる文字要素と合成文字の数の合計がなるべく小さくなるような分解方法を選択する。
例えば、文字C001を分解する際、以下のような組み合わせが考えられる。
C0001=E001+E002+E004+E005
C0001=E001+E004+I001
C0001=E001+E005+I002
C0001=E001+E002+I003
C0001=E001+I004
ここで、この例の場合には、最後の分割が分割数が少ないため、文字C001は、E001+I004に分割される。上記の例のように、分割の最小数で選択する方法をとってもよいし、共起数を基準に分割を選択してもよい。例えば、分解要素の共起数の合計が大きくなるような分割をとってもよい。例えば、
C0001=E001+I004
の場合には、E001の共起数が2、I004の共起数が2であるため、共起数の合計は4である。共起数と分割数の両方を考慮して分割を選択してもよい。また、分割の仕方は複数であってよい。この結果をテーブル701の例のようなテーブルに保存しておく。分解方法が複数ある場合には、ひとつの文字に対して複数のエントリーが存在する。他にも、ある閾値よりも小さいとして分解の判定しても良い。
これにより文字をその部品に分解することができる。この例では、文字C001はこざとへんと、允に分割できている。また、この例では、文字C002の旁の元は、E007,E008に分解されてしまっているが、より多くの文字を対象として共起をとった場合、E007, E008は複数の文字で共起しているため、これらを合わせた合成文字を要素として抽出される。
文字分解に使われる文字部品は、テーブル702に示すように、文字部品IDと文字部品画像のテーブルとして整理しておいてもよい。
文字分解処理の結果は文字分解情報214に格納しておく。文字分解情報214には、テーブル701、テーブル605、テーブル602、テーブル702など情報が保存されている。
このように、共起数をベースに文字を分解することで、複数の文字においてよく現れるパターンを抽出できる。そのようなパターンは、意味としてひとまとまりとして考えることができる場合が多いため、これにより、高精度な文字部品の生成と文字認識、文字の構成のされ方に合った分割の仕方が可能となり、このように文字を分割することで、文字入力の効率化などが可能となる。
次に、図1を用いて文字分解情報214を用いた文字分析システムの処理例について説明する。
文字画像DB213、文字分解情報214についてはすでに述べたため、説明を省略する。文字分解104の処理は、図3の処理フローにより文字画像DBから文字分解情報214を生成する処理である。
認識辞書生成105では、入力文字画像を文字分解情報214の文字、合成文字、および文字要素に照合するための文字認識辞書を生成する。文字認識技術では、入力文字画像の照合対象は文字であるが、今回の場合には、文字分解で生成した合成文字、文字要素も照合対象となる。入力文字画像に近い文字、合成文字、または文字要素を近い順にスコア(類似度)付きで出力するための辞書を生成しておく。生成した辞書は認識辞書215に保存しておく。ここでは、統計的識別方法を用いても良いし、テンプレートマッチングなどの画像のマッチング方法を用いても良い。なお、ここでは、認識辞書生成で学習する照合対象をテーブル702に現れる文字部品のみとしてもよい。
なお、テーブル602に示すように、文字要素には複数の文字画像が保存されている。ここで、代表となる文字画像をひとつだけ代表画像としてテーブルに保存しておいてもよいが、テーブル602に示すように、文字画像を複数準備しておくことにより、学習時に用いることができる学習サンプル数が増加し、認識精度のよい認識辞書を作成することができる。テーブル605には、合成文字画像のサンプルを1つしか示していないが、文字要素から生成されるすべての組み合わせ画像を保存しておいてもよい。これも、同様にして認識精度を向上させる効果がある。また、文字のクラスタリングに誤りが生じる場合、つまり字形の異なるものがひとつの文字要素としてクラスタリングされてしまった場合でも、クラスタに所属する文字要素画像を全て保持しておくことにより、認識の処理が頑健となる。
また、複数の文字を保持しておくことで、後に説明するフォント生成において合成に用いる画像の選択肢が広がる。例えば、フォント生成の際に合成に用いる画像の黒画素同士が重ならないような画像を選択する、文字線の長さが近い画像を選択する、などの方法が考えられる。
ここで、統計的識別方法の簡単な例を図12を用いて説明する。学習フェーズでは、学習データセットを用いて認識辞書を生成する。学習データセットには、画像とそのカテゴリを示すラベルの組が複数保存されている。本実施例の場合には、例えば、文字画像と文字種を示すラベル(テーブル601)、合成文字と合成文字ID(テーブル605)、文字要素と文字要素ID(テーブル602)、の組が保存されている。
まず、正規化1201では、画像を予め定めたサイズに正規化した正規化画像を生成する。これには、サイズ正規化法、モーメント正規化法、非線形正規化法などの方法を用いることができる。サイズ正規化法では、画像を予め定めたサイズに拡大、縮小することで、正規化画像を生成する。これを、学習用データセットの各画像に対して適用する。
次に特徴抽出1202では、正規化1201で生成した正規化画像をベクトルに変換する。これには、画素特徴、勾配特徴、などを用いることができる。例えば、図1301の文字画像から画素特徴を抽出する例を説明する。図1301がサイズ50×50の正規化画像とする。このとき、図1301を図1302に示すように10×10の小領域に25分割する。各小領域の黒画素数をベクトルの要素とし、25次元のベクトルを生成する。このベクトル化処理を全ての学習用データセットの画像に対して適用する。
次に、認識辞書学習1203では、入力画像がどのラベルに属するかを判定するための認識辞書を特徴抽出1202で生成されたベクトルとラベルの組を用いて生成する。この認識辞書は、入力画像の各ラベルに対するスコア(類似度)を出力する。通常、最大のスコア(類似度)をもつラベルを入力画像が所属するラベルとする。これには、最近傍法、SVM、ニューラルネットワークなどの方法を用いることができる。最近傍法の場合には、生成されたベクトルとラベルの組をそのまま保存しておく。
次に、認識フェーズでは、入力された画像のラベルを認識辞書1207に基づいて判定する。正規化1204、特徴抽出1205では、学習フェーズと同じ方法により画像を正規化、ベクトル化する。次に、生成されたベクトルがどのラベルに所属するか、認識辞書1207を用いて判定する。最近傍法の場合には、入力画像より生成されたベクトルと最も近いK個(Kは予め定めた正の整数)のベクトルを認識辞書より探索し、それらK個のベクトルのラベルのうち、もっとも数が多いラベルを入力画像のラベルとして判定する。
認識辞書215を用いることで、入力画像が、どの文字、合成文字、または文字要素に近いか、順位付きで出力することができる。
文字情報入力101では、ユーザが入力したい文字の一部を、ウィンドウなどの所定の位置にマウスやタッチパネルの操作などで描くことにより、入力する。例えば、テーブル601の文字C001を入力したいとする。このとき、入力したい文字全体を入力すると、複雑な文字になるほど、文字認識による正解文字との照合が難しく、異体字のように10万種程度の文字種となる場合には、上位に入力したい正解候補を挙げることが難しくなる。そのため、ここでは、文字の一部を入力することで、照合しやすくする。例えば、まず、こざとへんのみを描く。
文字絞り込み探索102では、こざとへんを文字部品として含む文字に入力候補を絞り込む。この方法を説明する。認識辞書215には、入力画像を文字の部品となる文字要素または合成文字と照合するための情報が保存されている。ここでは、ユーザが入力した画像との類似度が高い文字要素または合成文字を算出する。類似度が高い順に予め指定した数だけ類似度が高い順に文字要素または合成文字を算出してもよいし、予め定めた閾値以上となる類似度の文字要素または合成文字を算出してもよい。類似度は、先に統計的識別フェーズなどで説明した方法などで計算してもよい。
ここで、算出された文字要素または合成文字をユーザに出力し、ユーザは入力しようとした文字要素または合成文字を選択する。ここで、こざとへんの例では、こざとへんは、すでに説明した文字分解処理により、複数の文字の中で現れるため、文字要素または合成文字に含まれると想定される。認識辞書による照合により、こざとへんが候補として上位に現れるため、ユーザによりこざとへんが選択される。これにより、こざとへんを文字部品としてもつ文字に候補が絞られる。ここで、こざとへんを部品としてもつ文字をユーザに提示する。
次に、入力文字選択終了103では、入力文字の選択が終了したかどうかを次のように判定する。文字絞り込み検索102で、候補として提示された文字をユーザが入力文字として選択すれば、その文字が入力され終了する。提示された候補から選択できなかった場合には、文字情報入力101に移り、さらにユーザに文字情報の入力を促す。
たとえば、こざとへんの例では、こざとへんをもつ全ての文字が候補として出力されるため、候補が多すぎて選択が困難であることが想定される。そのため、文字情報入力101に移り、さらに文字情報を入力する。
文字C001の例の場合、文字情報入力101では、こざとへん以外の文字部品である「允」の部分をユーザが入力する。同様にして、文字絞り込み検索102で、現在まで絞り込みを行った文字(こざとへんを部品としてもつ文字)の中から、さらに「允」を部品としてもつ文字が絞り込まれる。ここで、こざとへんをもち允と類似した字形の部品をもつ文字が候補として出力される。ここで、ユーザが入力したい文字が見つかれば、入力文字選択終了103にて、処理を終え、文字が入力される。
異体字にはかなり複雑な字形をもつ文字が多数含まれる。また文字種も10万種近く存在する。このような複雑な字形では、精度の良い文字の認識が困難となる。そこで、本実施例のように、文字を部品ごとに絞り込むことによって、効率よく入力したい文字の絞り込みを行うことが出来る。
異体字の文字種は多いが、図4の例のように、その部品は常用漢字の部品にも現れる字形であることが多い。そのため、部品に分解すれば、部品の数は異体字の字種数よりは少なくなることが期待できるため、認識辞書215を用いた認識対象字種は少なくすることが出来る。また、認識対象の字形も単純化できる。
なお、本実施例では、ユーザによる部品部分の入力、および、絞り込みを繰り返す形となっているが、最初から、部品ごとに全て入力してもらい、それらをそれぞれ認識辞書215により照合し、類似度と照合結果に基づいて、候補文字を出力してもよい。
また、文字要素と合成文字に、その位置情報も保持しておいても良い。これによって、文字絞り込みの効率を上げることができる。
位置情報を保持する例について説明する。図8のテーブル801に示すように、文字領域を複数の領域、例えば9つの領域に分ける。正方格子以外の格子に分けても良い。そして、各文字要素や合成文字、文字部品が占有する領域(例えば、黒画素が一定以上となる領域)を、テーブル602のような文字要素テーブルやテーブル604、605、テーブル702のような合成文字テーブルに保存しておく。また、これらのテーブルを画面などに出力して、文字要素と共起度を確認できるようにしてもよい。確認する事によって、文字分析の妥当性の確認や、閾値の調整などが可能となる。
そして、文字情報入力101では、ユーザは入力したい文字の部品を描くとともに、画像領域901のように任意で位置情報も指定する。画像領域901では1、4、7の領域をユーザが指定している。このとき、文字絞り込み検索102では、この指定領域と文字要素テーブルや合成文字テーブルに保存されている文字領域との重なりがある文字要素と合成文字、文字部品のみを検索対象とする。これによって、効率的に文字を絞り込むことが出来る。
さらに、文字要素や合成文字、文字部品のうちUTF−8、SJIS,EUCのような文字コードをもつ文字形と合致するものや、文字情報基盤に含まれる文字形と合致するもの(MJコード)については、これらの文字コード情報を文字要素テーブルや合成文字テーブルに保持しておくとよい。これは、UTF−8やMJコードをもつ文字と照合するための文字認識辞書を学習しておき、これと文字要素や合成文字を照合することで、文字要素や合成文字に自動的に文字コードを付与してもよいし、コストはかかるが人手により作成しておいてもよい。
このようなコードを保持しておくことで、文字情報入力101において、手書きで文字を入力するかわりに、コードで入力することができ、文字絞り込み検索102が正確になる。例えば、文字情報入力101において、「允」を入力する場合には、これを手書きで描く代わりに、「允」を通常の常用漢字の入力のように入力することができる。また、こざとへんの入力の場合には、対応するMJコードを入力することができる。これにより、認識辞書215による照合は不要となり、正確かつ高速に、文字情報入力101で入力された部品を含む文字を絞り込むことができる。これにより、高速に文字を入力できる。
図14にユーザーインターフェイスの例を示した。まず、ユーザによる、1403、1404、1405、1407、1408のひとつ以上の箇所に入力したい文字、または文字部品の情報の入力を受け付ける。1403は部品画数、1404は部品のMJコードを入力する箇所である。また、1405は文字を通常のキーボード入力の方法での入力を受け付ける。例えば、常用漢字等であれば、SJISやUTFコードをもっているため、通常のキーボード入力の受付が可能である。例えば、「允」などの文字の場合には、通常通り字形の入力を受け付ける。例えば、1407には手書きによる文字形の入力を受け付ける。1408では、文字部品の占める主な位置の指定を受け付ける。例えば、テーブル702の文字部品I004を検索したい場合には、文字入力1405にて「允」の入力を受付け、位置指定1408に、図9で示す2,3,5,6,8,9の位置の指定を受け付ける、などとする。情報の入力の受付けが終われば、検索1402で検索すると、図1の各処理により部品検索結果(候補)が1409に示される。1410には、その部品を含む文字候補が示される。1409からユーザが選択すれば、それが文字部品として選択され、1410からユーザが選択すれば、それが最終的にユーザが入力したい入力文字として選択される。1406にはこれまでに選択した文字部品を合成したテーブル601の文字C001を入力したいとして、まず「允」を検索し、その選択を受け付けたとすると、1406のように「允」が表示される。次に、こざとへんを1407、1408の例のように入力すると、1409、1410のように候補文字が示される。ここで、1410より入力したい文字を選択することによって、最終的な入力文字が指定される。
また、異体字の種類は多く、予めあらゆる文字種を準備することは難しく、準備した文字種のいずれとも異なる未知の文字種の入力が必要となる場合がある。そのような場合には、入力したい文字のフォントが存在しない。そのような文字が現れた場合に、ユーザが入力したい文字部品と文字領域を指定することで、文字要素と合成文字を認識辞書215により照合し、当該文字種が準備されていない場合には、これらの部品のフォントを組み合わせて、入力したい文字のフォントを合成することができる。
異体字は、複雑であるが、その部品は、他の文字にも現れる字形であることが多いため、この方法により未知の文字の入力にも対応できる場合がある。
この例について、図1を用いて説明する。
まず、文字部品情報入力106では、文字の部品に関する情報をユーザが入力する。これは、文字情報入力101の場合と同様に、文字部品の手書き画像や、画数、コードなどである。
次に、文字部品抽出107では、ユーザが入力した文字部品に関する情報に基づいて、文字部品候補を抽出する。
次に、文字部品選択108では、文字部品候補の中からユーザが文字部品を選択する。選択終了判定109では、全ての文字部品が選択されたかどうか判定し、選択されていない文字部品がある場合には、106の処理に戻り、残りの文字部品を選択する処理を行う。
選択が終了すれば、フォント生成110で、文字部品画像を合成することにより、入力したい文字のフォントを生成する。合成する場合の各文字部品画像の位置の調整などはユーザが行っても良いし、各文字部品の位置情報に基づいて自動的に行っても良い。このようにして、未知の文字の入力にも対応できる。
文字入力111では、合成されたフォントを用いて文字を入力する。
なお、フォント生成による文字入力は、すでに101〜103の処理のフロー図で説明した方法により文字が見つからず、文字入力ができない場合にのみ、用いるなどとすればよい。
処理101〜103では、文字の情報を入力することで文字を検索する。これに対し、上記のフォント生成では、処理106〜108までは文字部品を検索する。処理101〜103では、文字の分解情報を用いることで検索を効率化した。同様のことを、処理106〜108についても行っても良い。つまり、文字部品自体が、より小さい文字部品に分解できる。このような入れ子状の分解情報を文字の分解情報と同様にして階層的に保存しておくことにより、処理101〜103と同様の方法によって文字部品の検索を効率化することができる。この場合には文字の分解情報に加えて、文字分解に用いられる文字部品に対しても、その分解情報を保存しておく。文字部品の分解情報の生成、および保存方法については、文字の場合と同様であるため、説明は省略する。
なお、本発明の方法は、中国で用いられる簡体字、繁体字などの漢字についても適用可能である。
また、自治体等、異体字を扱う組織においては、異体字を識別するために独自の識別コードやフォントを用いているケースが想定される。そのような場合において、異なる組織の異体字データベース(異体字画像とその識別コードの組からなるデータベース)を収集し、本発明の方法により分解することによって、異なる識別コードの文字であっても、同一文字であれば、同一の部品で構成されていることが検出できる。異体字のような複雑な文字で、文字サンプルの数も少ない場合には、文字同士の直接のマッチングにより一致と不一致を判定することが難しい場合があるが、部品に分解することにより、文字形が一致するかどうかが判定し易くなるケースがある。このような状況において、文字形が同じ文字を検出し、共通のコードを付与することによって、異体字を扱う異なる組織間においてもデータの移行が容易となる。
また、本発明の方法は、異なる組織間から収集された異体字データベースにおいて、識別コードが組織間で統一されていない場合においても、識別コードとは関係なく、同一文字における共起回数をもとに文字分解を行うことができるため、適用が可能である。
また、上記の例では文字要素の文字での共起回数に基づいて、文字部品を生成したが、ユーザが検索時に描く文字の単位を画像データとして蓄積しておき、ユーザが描く画像の単位を、その頻度が一定以上の場合には、文字要素またはその合成文字とその画像を照合し、照合された文字要素またはその合成文字を文字部品として定めるようにしてもよい。このようにすることで、ユーザが検索時に思い描き易い単位を文字部品として定めることができる。
本発明によって生成された文字分解情報は人手によるメンテナンスにより、修正してもよい。例えば、テーブル701に示される文字とそれを構成する文字部品の情報、および、テーブル702に示される文字部品の情報をメンテナンス画面に表示し、人手による修正をしてもよい。このとき、修正を補助する情報として、文字部品の共起頻度の数、位置情報、標準文字コード情報(存在する場合)、その文字部品を含む文字の表示、文字の分解の様子を文字部品ごとに色分けして表示するUIなどをつけると良い。
201 文字分析システム
202 入力装置
203 表示装置
204 イメージ取得装置
205 通信装置
206 演算装置(CPU)
207 外部記憶装置
213 文字画像DB
214 文字分解情報

Claims (12)

  1. 複数の文字画像を格納する文字画像データベースを有する文字分析システムであって、
    前記文字画像を細分化した細分化画像を生成する文字画像細分化部と、
    前記細分化画像の文字画素の字形を分類して、前記細分化画像からなる文字要素を生成する分類部と、
    前記文字要素が前記文字画像のなかで出現する頻度である共起度に基づいて前記文字要素を合成して文字部品を生成し、前記文字画像を前記文字部品と関連づけて前記文字画像データベースに格納する文字部品生成部と、
    を有することを特徴とする文字分析システム。
  2. 請求項1に記載の文字分析システムであって、
    前記文字画像細分化部は、前記文字画像中の黒画素が画像上連続している部分を前記細分化画像として生成することを特徴とする文字分析システム。
  3. 請求項1に記載の文字分析システムであって、
    前記文字画像細分化部は、前記文字画像中の黒画素と白画素の間の境界線の角度変化が閾値よりも高い箇所を切断候補箇所として、前記切断候補箇所に対する前記黒画素の角度情報と距離情報とに基づいて、前記切断候補箇所における黒画素を白画素に置換し、前記文字画像中の黒画素が画像上連続している部分を抽出し前記細分化画像として生成することを特徴とする文字分析システム。
  4. 請求項1に記載の文字分析システムであって、
    前記文字画像細分化部は、前記文字画像における前記細分化画像の位置情報を生成し、
    前記分類部は、さらに前記位置情報を用いて前記文字要素を生成し、
    前記文字部品生成部は、さらに前記位置情報を用いて前記文字部品を生成し、前記文字画像を前記位置情報と前記文字部品とに関連づけて前記文字画像データベースに格納することを特徴とする文字分析システム。
  5. 請求項1に記載の文字分析システムであって、
    前記文字要素と前記共起度とを出力する出力部をさらに有する事を特徴とする文字分析システム。
  6. 請求項1に記載の文字分析システムであって、
    文字画像の入力を受け付ける文字情報入力部と、
    前記入力された文字画像と前記文字部品とに基づいて、文字部品候補を抽出する候補抽出部と、
    をさらに有することを特徴とする文字分析システム。
  7. 請求項4に記載の文字分析システムであって、
    文字画像の一部を含む文字情報の入力を受け付ける文字情報入力部と、
    前記入力された文字画像と前記文字部品とに基づいて、文字部品候補を抽出する候補抽出部と、
    をさらに有し、
    前記候補抽出部は、前記入力された文字画像の位置情報と、前記文字部品の前記位置情報とに基づいて、前記文字部品候補を抽出することを特徴とする文字分析システム。
  8. 請求項6に記載の文字分析システムであって、
    前記候補抽出部は、前記文字部品候補に基づいて文字候補を抽出することを特徴とする文字分析システム。
  9. 請求項6に記載の文字分析システムであって、
    前記文字部品候補を画面に出力する出力部をさらに有する事を特徴とする文字分析システム。
  10. 請求項6に記載の文字分析システムであって、
    複数の前記文字部品候補の選択を受け付けて、前記複数の文字部品候補に基づいて文字候補を生成し、前記生成された文字候補と前記複数の文字部品候補とを関連づけて前記文字画像データベースに格納する文字生成部をさらに有する事を特徴とする文字分析システム。
  11. 請求項1に記載の文字分析システムであって、
    前記文字画像は異体字の文字画像を含むことを特徴とする文字分析システム。
  12. 請求項1に記載の文字分析システムであって、
    前記文字部品生成部は、前記文字部品と前記文字要素とが前記文字画像のなかで出現する頻度に基づいて前記文字部品と前記文字要素とを合成して新たに文字部品を生成し、前記文字画像を前記新たに生成された文字部品と関連づけて前記文字画像データベースに格納することを特徴とする文字分析システム。
JP2014248537A 2014-12-09 2014-12-09 文字分析システム及び文字分析方法 Pending JP2016110468A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014248537A JP2016110468A (ja) 2014-12-09 2014-12-09 文字分析システム及び文字分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014248537A JP2016110468A (ja) 2014-12-09 2014-12-09 文字分析システム及び文字分析方法

Publications (1)

Publication Number Publication Date
JP2016110468A true JP2016110468A (ja) 2016-06-20

Family

ID=56122272

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014248537A Pending JP2016110468A (ja) 2014-12-09 2014-12-09 文字分析システム及び文字分析方法

Country Status (1)

Country Link
JP (1) JP2016110468A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021026191A (ja) * 2019-08-08 2021-02-22 ブラザー工業株式会社 学習済みの機械学習モデル、画像データ生成装置、および、方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021026191A (ja) * 2019-08-08 2021-02-22 ブラザー工業株式会社 学習済みの機械学習モデル、画像データ生成装置、および、方法

Similar Documents

Publication Publication Date Title
US10846553B2 (en) Recognizing typewritten and handwritten characters using end-to-end deep learning
JP5134628B2 (ja) 連続する記事部分の媒体資料解析
Mouchere et al. ICFHR 2014 competition on recognition of on-line handwritten mathematical expressions (CROHME 2014)
US10915788B2 (en) Optical character recognition using end-to-end deep learning
Al-Zaidy et al. A machine learning approach for semantic structuring of scientific charts in scholarly documents
US8340429B2 (en) Searching document images
Simistira et al. A system for recognition of on-line handwritten mathematical expressions
US20150199567A1 (en) Document classification assisting apparatus, method and program
CN106844481B (zh) 字体相似度及字体替换方法
Alotaibi et al. Optical character recognition for quranic image similarity matching
Rausch et al. Docparser: Hierarchical document structure parsing from renderings
Saba et al. Online versus offline Arabic script classification
JP2011248596A (ja) 画像入り文書の検索システム及び検索方法
Li et al. Recognition of offline handwritten Chinese characters using the Tesseract open source OCR engine
JP2013246732A (ja) 手書き文書検索装置、方法及びプログラム
JP2012190434A (ja) 帳票定義装置、帳票定義方法、プログラム及び記録媒体
Al-Maadeed et al. Automatic handedness detection from off-line handwriting
EP2544100A2 (en) Method and system for making document modules
Fischer et al. Character prototype selection for handwriting recognition in historical documents
JP2016110468A (ja) 文字分析システム及び文字分析方法
JP6542546B2 (ja) 文書データ処理方法およびシステム
Diem et al. Semi-automated document image clustering and retrieval
Panichkriangkrai et al. Character segmentation and transcription system for historical Japanese books with a self-proliferating character image database
Esser et al. Few-exemplar information extraction for business documents
KR20230029206A (ko) 인공지능 문자인식을 위한 학습 데이터 구축 장치

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20170110

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20170112