JP6542546B2 - 文書データ処理方法およびシステム - Google Patents

文書データ処理方法およびシステム Download PDF

Info

Publication number
JP6542546B2
JP6542546B2 JP2015037981A JP2015037981A JP6542546B2 JP 6542546 B2 JP6542546 B2 JP 6542546B2 JP 2015037981 A JP2015037981 A JP 2015037981A JP 2015037981 A JP2015037981 A JP 2015037981A JP 6542546 B2 JP6542546 B2 JP 6542546B2
Authority
JP
Japan
Prior art keywords
character
image
code
character image
document data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015037981A
Other languages
English (en)
Other versions
JP2016162040A (ja
Inventor
孝志 河合
孝志 河合
義行 小林
義行 小林
平林 元明
平林  元明
協 川崎
協 川崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Systems Ltd
Original Assignee
Hitachi Systems Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Systems Ltd filed Critical Hitachi Systems Ltd
Priority to JP2015037981A priority Critical patent/JP6542546B2/ja
Publication of JP2016162040A publication Critical patent/JP2016162040A/ja
Application granted granted Critical
Publication of JP6542546B2 publication Critical patent/JP6542546B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Character Discrimination (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、既存の電子化文書を再利用可能とする方法およびシステムに関する。
現在の電子化文書の利用分野では、文字と文字コードの対応が、全利用者間で完全に共通にはなっていない。このため、ある主体で作成した既存電子文書を他の主体で利用する場合に、不都合が生じる場合がある。
たとえば、事業体Aでのみ利用している文字コードは、事業体Bでは利用できないので、事業体Aの文書データを事業体Bで利用しようとする場合には、事業体Bでは利用できない文字コードを持つ文字を、事業体Bで利用できるようにデータ化しなければならない。
このとき、該当の文字を事業体Bで使用できるようにするため、情報処理装置等に文字等を入力する際には、漢字の読み方を入力し、読み方から提示された変換候補をユーザが選択することで、入力対象の文字を入力することが一般に行われている。しかし、読み方が分からない場合などには、ユーザにマウス等を使って手書き文字を描いてもらい、その文字を文字認識装置で認識することにより、文字候補を出力し、ユーザが文字候補の中から最終的な入力文字を選択することで、文字を入力することが一般に行われている。
その他の文字検索方法としては、特許文献1には、漢字を部首など予め用意された要素に基づいて検索する方法が記載されている。また、特許文献2には、手書き入力された漢字構成部分の入力イメージを作成し、作成された入力イメージとあらかじめ記憶した漢字構成部分のイメージとを比較し、その比較結果に基づいて、漢字構成部分を候補として抽出して表示する技術が開示されている。
特開2003−223439号公報 特開2005−165533号公報
特許文献1,2には、文字検索・入力の例が開示されているが、ある主体で作成した既存電子文書を他の主体で利用する場合の、効率的な方法やシステム構成については、検討がされていない。
本発明は、文字を構成要素に分解して作成したデータベースを用い、主体間での文書データの再利用を容易に行うことを目的とする。
すなわち、背景技術の項に記載したように、文字を表す文字コードには、企業により独自のものや、UnicodeやJISのように規格化されたもの、戸籍統一文字や住民基本台帳ネットワーク統一文字(住基ネット統一文字)のように、官公庁が制定したものがある。しかしながら、これらの文字コード体系は制定・管理者により異なり、また、扱える文字の数が異なる。さらには、文字コードのバイト数も、2バイトもしくは4バイトと、同一とは限らない。このため、ある主体で利用していた文書データは、そのまま他の主体では利用できないことがある。
このために、文書データを送信するたびに変換が必要な仕組としてしまうと、煩雑な変換作業が発生する。そのため、統一された文字コードでデータを交換できるようにする必要がある。
たとえば、住民基本台帳ネットワークにおいては、各自治体で管理している文字コード(自治体特有の外字を含む)を、住基ネット統一文字で同定し、住基ネット統一文字コードとの変換テーブルを作成することで、自治体間の文字データの交換を可能とする。各自治体固有の文字コードが変換テーブルにあれば、文書データの共有が自治体間で可能となる。
しかしながら、人名や地名には後述する異体字など、ほぼ同じ形だが微妙に形状の異なる漢字が多くあり、全てを住基ネット統一文字に同定することが難しい。同定できなかった文字は、残存外字として残る。残存外字は変換テーブルで自動的に対応できず、文字画像を人間が判別して、利用可能な文字コードとの対応付けを行わなければならない。これは大変煩雑な作業であり、極力自動化することが望まれていた。 近年、既存の多くのシステムで用いられている文字を包括して利用可能とする文字情報基盤の整備が進められている。文字情報基盤の文字コードを用いて変換テーブルを作成すれば、種々の文字コード間の変換が可能となるが、そのようなテーブルの整備には時間がかかるし、主体ごとに使われているすべての外字に対応することも非効率的である。
本発明の課題は、例えば文字情報基盤のような包括的な文字コード体系を利用して、異なる主体間の文書データの交換・利用をより効率的に行う手法を提供することにある。
本発明の一つの側面は、第1の文字画像の集合と、各文字画像を特定する第1のコードの集合を含む第1のデータベースと、第2の文字画像の集合と、各文字画像を特定する第2のコードの集合を含み、各文字画像に一または複数の文字部品の画像を関連付けた第2のデータベースである認識辞書と、を用いる文書データ処理方法である。この方法では、第3の文字画像の集合に対応した、第3のコードの集合を含む文書データを準備する第1のステップ、第3のコードの集合中の、第1のコードの集合中に存在しないコードを抽出する第2のステップ、抽出されたコードに対応する文字画像を、第3の文字画像の集合から抽出する第3のステップ、抽出した文字画像を、検索対象となる検索対象文字画像とする第4のステップ、検索対象文字画像を複数の部分に分解して、複数の検索対象文字部品の画像を生成する第5のステップ、複数の検索対象文字部品の画像の其々を、認識辞書の文字部品の画像と照合する第6のステップを、有する。
以上の構成は、単体のコンピュータで実行してもよいし、あるいは、入力装置、出力装置、処理装置、記憶装置の任意の部分が、ネットワークで接続された他のコンピュータで構成されてもよい。すなわち、データベースや認識辞書は、遠隔地にありネットワークで接続されてもよい。また、コンピュータの処理装置でソフトウェアにより実行してもよいし、ソフトウエアで構成した機能と同等の機能は、FPGA(Field Programmable Gate Array)、ASIC(Application Specific Integrated Circuit)などのハードウエアでも実現できる。そのような態様も本願発明の範囲に含まれる。
本発明の好ましい態様では、第6のステップは、複数の検索対象文字部品の画像の其々を、認識辞書の文字部品の画像とパターンマッチングし、マッチングした文字部品の画像と関連付けられる文字画像を、第2の文字画像の集合から抽出し、第2のコードの集合から、抽出した文字画像を特定するコードを抽出する。
さらに好ましい具体的な例としては、第3のステップでは、抽出された文字画像を、文書データに添付して作業文書データを作成し、第4のステップでは、作業文書データに添付された文字画像を、検索対象文字画像とする。このようにすると、作業文書データは、可搬性記録媒体に記録保存して別の場所に送ったり、有線もしくは無線通信網経由で送信したりすることができる。受けとり側では受信した作業文書データを読み出し、作業文書データに添付された文字画像を取り出して処理を行うことができ、異なる作業者で、作業文書データをやり取りすることが容易になる。
他の好ましい例としては、第6のステップで抽出した、文字画像を特定するコードと文書データにより、新たな文書データを作成する。この文書データは、第1のコードの集合にないコードが、第2のコードの集合の中のコードに置き換えられているので、第1及び第2のコードを使用できる装置であれば、いずれの装置でも利用できるデータとなる。
認識辞書を作成する際に、文字画像に対応する複数の文字部品を生成するアルゴリズムと、検索対象文字画像を複数の部分に分解して、複数の検索対象文字部品を生成するアルゴリズムは、異なってもよいが、共通のアルゴリズムを用いると精度が向上する。
本発明の他の側面は、入力装置、演算装置、記憶装置、および出力装置を備える文字検索システムである。当該システムは、文字画像と、当該文字画像を特定するコードと、当該文字画像に対応する複数の文字部品の画像を関連付けたデータセットを、複数格納する認識辞書をアクセス可能である。
入力装置は、文書データと、該文書データに添付された検索対象となる検索対象文字画像の入力を受付ける機能を有し、演算装置は、文書データに添付された検索対象文字画像を得る機能と、検索対象文字画像を複数の部分に分解して、複数の検索対象文字部品の画像を生成する機能と、複数の検索対象文字部品の画像の其々を、認識辞書の文字部品の画像と照合する機能と、照合の結果前記認識辞書から抽出された文字画像に対応するコードを抽出する機能と、該抽出したコードを前記文書データに適用して、新たな文書データを作成する機能を有する。
既存文書データの再利用が容易になる。
文字分解情報を用いた文字入力装置の処理例のフロー図。 本実施例の文字入力装置の一例を示す構成ブロック図。 文字分解処理の一例を示す説明フロー図。 異体字の例を説明する概念図。 文字要素画像のクラスタリングの一例を説明する概念図。 文字画像DBのデータ例を示す表図。 文字要素IDと対応する文字要素画像の例を示す表図。 文字IDと文字要素IDの例を示す表図。 合成文字IDと合成文字画像と文字要素IDと共起数の例を示す表図。 文字IDと文字要素、合成文字IDの対応テーブルの例を示す表図。 文字分解情報のテーブルの例を説明する表図。 文字領域と位置情報の例を説明する表図。 文字領域と位置情報の例を説明する概念図。 強制切断の処理の例を説明する概念図。 強制切断の処理の例を説明する概念図。 統計的識別方法の例を説明するフロー図。 文字画像のベクトルによるクラスタリングの例を説明する概念図。 検索時のユーザーインターフェイスの例を説明する平面図。 文字検索の処理の流れを示すフロー図。 複数の事業主体が備える文字データベースの例を示す概念図。 複数の事業主体と共通文字基盤データベースの利用関係を示すブロック図。 共通文字基盤の文字データベースの例を示す概念図。 文書データ送信側の処理の流れの例を示すフロー図。 文書データ受信側の処理の流れの例を示すフロー図。 文書データ送信側の処理の流れの他の例を示すフロー図。 事業主体が利用する事業主体の外字データベースの例を示す概念図。 本発明の他の実施例を示す構成図。
実施の形態について、図面を用いて詳細に説明する。ただし、本発明は以下に示す実施の形態の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。
以下に説明する発明の構成において、同一部分又は同様な機能を有する部分には同一の符号を異なる図面間で共通して用い、重複する説明は省略することがある。
図面等において示す各構成の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面等に開示された位置、大きさ、形状、範囲などに限定されない。
本発明の文字入力装置の実施例について、図表を参照しながら説明する。本実施例では、異体字をその構成要素に分解し、分解した要素を用いて文字入力を効率化する。
<1.文字画像データベースと文字分解情報の作成>
図2は、本実施例の文字入力装置の一例を示す構成図である。
本実施例の文字分析システム201は、ユーザの文字入力を支援する装置であり、入力装置202、表示装置203、イメージ取得装置204、通信装置205、演算装置(CPU)206、外部記憶装置207を備える。外部記憶装置207は、文字画像DB213、文字分解情報214を含む。
入力装置202は、コマンド等を入力するためのキーボードやマウス等である。入力装置202は、演算装置(CPU)206で実行されるプログラムの制御や、その他、接続機器の制御のために実行されるコマンド等を入力するための装置である。
表示装置203は、処理内容を適宜表示するディスプレイ等の装置である。イメージ取得装置204は、スキャナなどのイメージ取得用の装置である。取得したイメージは、外部記憶装置等に記憶してもよい。
通信装置205は、PCやサーバ等の外部機器からのデータのやりとりを行うために用いる。通信装置205は、外部機器からのユーザによる実行コマンドの取得や、画像やテキストなどの情報の外部機器からの取得等の目的に用いられる。また、通信装置205は、処理内容を外部機器に送信する等の目的にも用いられる。
演算装置(CPU)206は、文字分解などの各種処理を実行する演算装置である。外部記憶装置207は、HDD,メモリ等の外部記憶装置である。外部記憶装置207には、文字の画像や文字を構成要素に分解した情報などの各種データが保存されている。また、外部記憶装置には、演算装置(CPU)206によって実行される処理の途中で生成されるデータ等を一時的に記憶しておくためにも用いられる。
入力装置202、表示装置203、イメージ取得装置204、通信装置205はなくてもよい。入力装置202が無い場合には、処理の開始は、通信装置205を用いて外部機器から指示するか、または、時刻指定等により自動的に行う。表示装置203が無い場合には、処理結果は通信装置205を用いて外部機器に送信するか、外部記憶装置207に記憶しておく。次に、本実施例における文字分析システム201によって実施される処理の説明に移る。
図3は文字分解処理の一例を示す。文字分解処理では、文字画像DB213を用いて文字分解情報214を作成する。文字分解情報214は、文字入力の際に用いられるが、文字入力の処理は、文字分解処理の後に説明する。
図4で字の種類の一つである異体字について説明する。図4に異体字の例を画像で示した。異体字とは、一般に同等の意味を有するが互いに異なる形の字体をいう。401のように、複雑な字形で一部のみが異なるものや、402のように僅かに字形が異なるものなどがある。文字画像DB213は、このような異体字の文字画像が文字を識別するIDと文字コードなどの付加情報とともに保存されたものである。なお、文字画像DB213には、異体字以外にも、常用漢字などどのような文字種の画像が入っていてもよい。
なお、文字符号の国際規格であるISO/IEC 10646では、文字符号としては同一視される漢字の、細かな字形の差異を特別に使い分けるための仕組みである、IVS(Ideographic Variation Sequence/Selector)が規定されている。具体的には、データベースのそれぞれの文字コードの後に、それぞれの字形を特定するための枝番号を表現するための符号を付けることによって字形を区別する。この枝番号は、”Variation Selector(字形選択子)”と呼ばれる。電子文書中にこの符号列を記述することで、細かな字形の差異を区別して指定できる。以下、本実施例では、特に限定する意図ではないが、異体字の具体例として、上記IVSで規定された文字データを用いるものを想定する。
図6(A)のテーブル601に文字画像DBのデータ例を示した。文字を識別するIDと文字画像情報が含まれている。さらに、文字に対応するUTF、EUC、SJISなどの文字コード等、付加情報があれば、それらの情報を含んでいてもよい。
図3に戻り、文字細分化301では、文字画像DB213に含まれる文字画像を細かい要素に細分化する。なお、以下の例では文字画像は予め2値化処理をしているものとする。その結果、黒画素と白画素の何れかになる。以降、細分化の例を説明する。ここで説明する例では、まず文字画像を連結成分ごとに分解し、接触部などは、さらに強制切断をすることで、文字を細かい要素に細分化する。連結成分ごとの分解のみの場合や、強制切断のみの場合もある。まず、連結成分ごとに分解する。図4の404は、同じく403の5つの文字をその連結成分(黒画素が繋がっている成分)ごとに分割した例である。連結成分でわけることにより、多くの文字要素を生成する事ができ、多くの文字種に対応できるようになる。
ただし、連結成分だけでは分離できない字形もあるため、強制切断などの方法を用いて、要素を細かく細分化してもよい。この処理では、細分化した文字を元の文字コードの情報とともに、出力する。なお、強制切断などによって、複数通りの細分化の仕方が生じた場合には、そのうちの一通りの細分化を選んでもよいし、それら複通りの細分化でできた文字要素を生成し、保存しておいてもよい。このとき、テーブル603のテーブルの文字要素IDには、複数の細分化でできた文字要素もまとめて保持しておく。
図10により、文字の強制切断の方法例を説明する。図10の1001では、矢印1007で示した箇所で、接触がある。このような場合には、連結成分ごとの分解では不十分であるため、強制切断によって、切り離す。この方法の一例について1001の左側の文字の例を用いて説明する。テーブル1002は、テーブル1001の左側の文字の接触部を拡大したものである。文字線1003と文字線1004が接触している。このとき、1005と1006に示す矢印のように文字線1005の輪郭を辿り、それを文字線1005に沿って少し延長した場合に、1005と1006は交わる。このような場合に、文字線1003と文字線1004を切り離すことにより切断する。
図11によって、文字の強制切断を画像1101の模式図を用いて説明する。画像1101のひとつのマスはひとつの画素を表わす。画像1101の輪郭を辿ると、1、2、3、…のようになる。ここで、輪郭は黒画素に接触している白画素のことであり、輪郭を辿るとは、隣接する輪郭を黒画素を右方向、または左方向に見て辿ることを意味するものとする。また、白画素と黒画素の境界線を辿るとしてもよい。ここで、輪郭位置4の部分で輪郭の角度が変化する(例えば、輪郭位置3から輪郭位置4に向かう方向と、輪郭位置4から輪郭位置5へ向かう方向が異なるがこの角度変化が予め定めた閾値以上である場合)が、このような部分を切断候補箇所として、この箇所から輪郭位置1,2,3,4に沿った方向に延長した直線を考える。すなわち、輪郭位置4の右下の画素、さらに右下の画素、のように延長する。
逆に、輪郭位置8,輪郭位置9の方向からも輪郭位置9の左上の画素、さらに左上の画素、のように延長する。このように延長した2つの直線が交わるが、予め閾値を定めておき、延長数が閾値以下である場合には、この直線に沿って文字を切り離す。画像1101の例の場合には、画像1101に示すように画素10と画素11が延長された画素の数であり、この部分の画素が白画素になり文字が切り離される。なお、後に文字要素を合成して文字部品を生成するため、この処理では、過剰に文字を切り離してもよい。また、強制切断処理が無い場合には、画像1001のような例では分解ができないが、このようなケースは比較的少数であるため、一定の部品分解の効果は得られるため、この処理はなくてもよい。このようにして、強制切断を行うことにより連結成分ごとに分ける場合よりもさらに細分化した文字要素を生成し、より多くの文字種に対応することが可能となる。
図3のクラスタリング302では、文字細分化301で生成した文字要素の画像を、その位置や字形が類似しているものはクラスタリングしてまとめる。
図5に、図4の404の15個の文字要素画像をクラスタリングした例を示した。各行にまとめられた文字要素を並べている。この例では、位置や字形が類似した画像をまとめて、9種の画像にクラスタリングしている。ここで、クラスタリングされた文字要素画像同士を同一視し、それらを識別するIDをつける。
図6(B)に記載のテーブル602にその例を示した。IDと、それに対応する文字要素画像が示されている。類似判定については以下に述べる。
クラスタリングでは、パターンマッチングの方法や統計的なクラスタリング方法などを用いることができる。統計的なクラスタリング方法を用いる場合には、各画像から特徴抽出を行い、ベクトルに変換する。これには勾配特徴、画素特徴などを用いることができる。ベクトルのクラスタリングには、k−meansや凝集法、EM−Algorithmなどを用いることができる。このときベクトル同士の距離について、ユークリッド距離を用いると、黒画素数が少ないもの同士は類似性が低くとも距離が小さく、黒画素が多いものは類似性が高くとも距離が大きいと判定されてしまう傾向がある。
図13は、文字画像のベクトルによるクラスタリングの例を説明する図である。例えば、図13の文字要素1303と文字要素1304のユークリッド距離は、文字要素1305と文字要素1306のユークリッド距離よりも小さい。これは、黒画素が多い字形のほうが、一致しない画素の数が大きくなり、その分が距離として計算されてしまうためである。そのため、2つの画像の画素数でユークリッド距離を正規化してもよい。例えば、f(A,B)を2つの画像A,Bの黒画素数に対して単調非増加な関数として、ユークリッド距離にf(A,B)を掛けた値を距離としてもよい。例えば、f(A,B)としては、1÷(画像Aと画像Bの黒画素数の合計)や1÷√(画像Aと画像Bの黒画素数の合計)としてもよい。平方根をとったのは、黒画素数は面積に相当するため、黒画素領域のスケールを計算するためである。
ここで、文字要素を元の文字画像と結び付けるテーブルを作成しておくとよい。テーブルの例をテーブル603に示した。元の文字のID(第一列目)に対して、それを構成する文字要素のIDが第二列目に記されている。例えば、テーブル603より、要素IDがE001の文字要素は、テーブル601の文字IDがC01の文字に含まれていることが分かる。
ここまでの処理では、文字をなるべく細分化し、類似した位置や字形のものをまとめることにより、文字要素画像を生成する。しかし、この段階でできた要素画像は細かすぎる場合がある。例えば、「波」のような文字のさんずいの3つの点は3つの異なる文字要素画像に分解されるが、これらは文字の部品としては、ひとつのまとまりとして、扱いたい。つまり「波」の分解ではさんずいと皮の部分に分解したい。このように分解することで、偏や旁のような意味のあるまとまりに分解することができ、後に説明する入力支援に役立てることができる。
文字部品生成303では、文字要素が同じ文字の中で共起(出現)する回数をカウントし、共起回数に基づいて文字要素をまとめることで、文字の部品となる画像を生成する。例えば、さんずいの3つの点は、「波」、「池」、「濯」、など様々な文字で共起、つまり同時に現れる。このように同時に現れる文字要素同士を合成することで、さんずいを文字部品として取り出すことができる。以下で、文字要素から文字部品を生成する例について説明する。
図3の後半を参照し、文字部品生成の処理例を説明する。ここで挙げる例では、共起回数に予め定めた閾値Nを設定しておき、共起回数がN回以上共起する文字要素を合成対象とする。
共起数計算304では、2つの要素文字のペアのうち、共起回数が最大となるようなペアを探索する。そのようなペアは複数存在する場合もある。
共起回数判定305では、共起数計算304で得られた共起回数の最大値が閾値Nより大きいかどうかを判定する。大きい場合には、文字要素追加306に進み、小さい場合には、文字部品生成307に進む。ここでは、N=2とする。
合成文字生成306では、共起数計算304で得られた共起回数が最大又は予め定められた別の閾値よりも高くなるようなペアに対して、そのようなペアを合成した新たな合成文字を生成する。生成した合成文字はIDを付与し、合成元の文字要素ID、共起数の情報とともに保持しておく。
図6(C)のテーブル603の例では、文字C001と文字C004の2つの文字で、文字要素E002と文字要素E005、文字要素E002と文字要素E004、文字要素E004と文字要素E006、の3つのペアが共起している。図6(C)の例では、これらの2回の共起数の文字要素ペアが共起回数最大となるため、共起数計算304では、これら3つのペアが抽出される。そして、合成文字生成306では、これら3つのペアの合成文字を生成し、合成文字を識別するIDと合成元の文字要素IDの情報を保持しておく。
図6(D)は合成文字IDと合成文字画像と文字要素IDと共起数の例を示す図である。ここまでの処理で、テーブル604の合成文字が生成される。
次に、共起数計算304では、共起回数が最大となるようなペアを探索する。ただし、2回目以降の共起数計算304の処理では、すでに探索済みのペアは対象から除く。つまり、ペアA,Bのうち、すでに合成文字生成306において合成文字として生成されたペアは探索対象から除く。
また、ペアとして、要素文字だけでなく、合成文字も対象とする。つまり、ペアA,Bの一方、または両方が合成文字のものも探索対象とする。これは、テーブル603の代わりにテーブル606の対応を共起の探索に用いることに相当する。ただし、合成文字は、A,Bを構成する文字要素は互いに重ならないものを対象とする。つまり、Aに対応する文字要素(Aが合成文字の場合にはそれを構成する文字要素)とBに対応する文字要素(Bが合成文字の場合にはそれを構成する文字要素)の間に重複がないようなペアを対象とする。例えば、合成文字I001と文字要素E002、合成文字I001と合成文字I002、などは共通する文字要素としてE002を含むため、探索対象としない。
図6(C)のテーブル606の例では、I001とE004, I002とE005, I003とE002 が文字C001と文字C004で共起しており、共起回数が最大となる。
次に、共起回数判定305では、共起数計算304で探索した共起回数を閾値Nと比べる。テーブル606の例では、2回共起しているため、合成文字生成306に進む。
合成文字生成306では、探索したペアを合成することにより合成文字を生成する。このとき、合成文字はその要素文字に展開する。つまり、I001とE004のペアは、合成文字I001をその要素文字E002とE005に展開し、3つの要素文字E001とE002とE005から成ると考える。そして、これを合成文字として追加する。テーブル605のI004がこの例である。今回の例の場合、残る2つのペアI002とE005, I003とE002についても、3つの要素文字E001とE002とE005から成るため、同じものは追加する必要がない。
図6(E)は文字IDと文字要素、合成文字IDの対応テーブルの例を示す図である。次に、この例では、共起数計算304に進むが、最大共起数が1となり、共起回数判定305でN=2以下であるため、文字部品生成307に進む。ここまでの処理で、I004を、それを含む文字C001とC004のエントリーに追加すると図6(E)のテーブル607のようになる。
文字部品生成307では、各文字を図6(E)のテーブル607のような文字IDと文字要素、合成文字の対応テーブルを用いて、各文字をその部品に分解する。このとき、テーブル607の2列目の文字を構成する文字要素、合成文字の中から、文字を組み立てる組み合わせを選択する。ただし、文字を構成する文字要素と合成文字を文字要素に展開したものの集合に、文字要素の重複がないようにする。このとき、文字を組み立てる文字要素と合成文字の数の合計がなるべく小さくなるような分解方法を選択する。
例えば、文字C001を分解する際、以下のような組み合わせが考えられる。
C0001=E001+E002+E004+E005
C0001=E001+E004+I001
C0001=E001+E005+I002
C0001=E001+E002+I003
C0001=E001+I004
ここで、この例の場合には、最後の分割が分割数が少ないため、文字C001は、E001+I004に分割される。上記の例のように、分割の最小数で選択する方法をとってもよいし、共起数を基準に分割を選択してもよい。例えば、分解要素の共起数の合計が大きくなるような分割をとってもよい。例えば、
C0001=E001+I004
の場合には、E001の共起数が2、I004の共起数が2であるため、共起数の合計は4である。共起数と分割数の両方を考慮して分割を選択してもよい。また、分割の仕方は複数であってよい。この結果をテーブル701の例のようなテーブルに保存しておく。分解方法が複数ある場合には、ひとつの文字に対して複数のエントリーが存在する。他にも、ある閾値よりも小さいとして分解の判定をしても良い。
これにより文字をその部品(文字部品)に分解することができる。この例では、文字C001はこざとへんと、允に分解できている。また、この例では、文字C002の旁の元は、E007,E008に分解されてしまっているが、より多くの文字を対象として共起をとった場合、E007, E008は複数の文字で共起しているため、これらを合わせた合成文字を要素として抽出される。
図7は文字分解情報のテーブルの例を説明する図である。文字分解に使われる文字部品は、図7のテーブル702に示すように、文字部品IDと文字部品画像のテーブルとして整理しておいてもよい。文字分解処理の結果は文字分解情報214に格納しておく。文字分解情報214には、テーブル701、テーブル605、テーブル602、テーブル702など情報が保存されている。
このように、共起数をベースに文字を分解することで、複数の文字においてよく現れるパターンを抽出できる。そのようなパターンは、意味としてひとまとまりとして考えることができる場合が多いため、これにより、高精度な文字部品の生成と文字認識、文字の構成のされ方に合った分解の仕方が可能となり、このように文字を分解することで、文字入力の効率化などが可能となる。
<2.認識辞書と文字分析システム>
図1を用いて文字分解情報214を用いた文字分析システムの処理例について説明する。文字画像DB213、文字分解情報214についてはすでに述べたため、説明を省略する。文字分解104の処理は、図3の処理フローにより文字画像DBから文字分解情報214を生成する処理である。
認識辞書生成105では、入力文字画像を文字分解情報214の文字、合成文字、および文字要素に照合するための文字認識辞書を生成する。文字認識技術では、入力文字画像の照合対象は文字であるが、今回の場合には、文字分解で生成した合成文字、文字要素も照合対象となる。入力文字画像に近い文字、合成文字、または文字要素を近い順にスコア(類似度)付きで出力するための辞書を生成しておく。生成した辞書は認識辞書215に保存しておく。ここでは、統計的識別方法を用いても良いし、テンプレートマッチングなどの画像のマッチング方法を用いても良い。なお、ここでは、認識辞書生成で学習する照合対象をテーブル702に現れる文字部品のみとしてもよい。
なお、図6(B)のテーブル602に示すように、文字要素には複数の文字画像が保存されている。ここで、代表となる文字画像をひとつだけ代表画像としてテーブルに保存しておいてもよいが、テーブル602に示すように、文字画像を複数準備しておくことにより、学習時に用いることができる学習サンプル数が増加し、認識精度のよい認識辞書を作成することができる。テーブル605には、合成文字画像のサンプルを1つしか示していないが、文字要素から生成されるすべての組み合わせ画像を保存しておいてもよい。これも、同様にして認識精度を向上させる効果がある。また、文字のクラスタリングに誤りが生じる場合、つまり字形の異なるものがひとつの文字要素としてクラスタリングされてしまった場合でも、クラスタに所属する文字要素画像を全て保持しておくことにより、認識の処理が頑健となる。
また、複数の文字を保持しておくことで、後に説明するフォント生成において合成に用いる画像の選択肢が広がる。例えば、フォント生成の際に合成に用いる画像の黒画素同士が重ならないような画像を選択する、文字線の長さが近い画像を選択する、などの方法が考えられる。
図12を用いて、統計的識別方法の簡単な例を説明する。学習フェーズでは、学習データセットを用いて認識辞書を生成する。学習データセットには、画像とそのカテゴリを示すラベルの組が複数保存されている。本実施例の場合には、例えば、文字画像と文字種を示すラベル(テーブル601)、合成文字と合成文字ID(テーブル605)、文字要素と文字要素ID(テーブル602)、の組が保存されている。
まず、正規化1201では、画像を予め定めたサイズに正規化した正規化画像を生成する。これには、サイズ正規化法、モーメント正規化法、非線形正規化法などの方法を用いることができる。サイズ正規化法では、画像を予め定めたサイズに拡大、縮小することで、正規化画像を生成する。これを、学習用データセットの各画像に対して適用する。
次に特徴抽出1202では、正規化1201で生成した正規化画像をベクトルに変換する。これには、画素特徴、勾配特徴、などを用いることができる。
図13で文字画像のベクトルによるクラスタリングの例を説明する。例えば、図13の1301の文字画像から画素特徴を抽出する例を説明する。画像1301がサイズ50×50の正規化画像とする。このとき、画像1301を画像1302に示すように10×10の小領域に25分割する。各小領域の黒画素数をベクトルの要素とし、25次元のベクトルを生成する。このベクトル化処理を全ての学習用データセットの画像に対して適用する。
次に、認識辞書学習1203では、入力画像がどのラベルに属するかを判定するための認識辞書を特徴抽出1202で生成されたベクトルとラベルの組を用いて生成する。この認識辞書は、入力画像の各ラベルに対するスコア(類似度)を出力する。通常、最大のスコア(類似度)をもつラベルを入力画像が所属するラベルとする。これには、最近傍法、SVM、ニューラルネットワークなどの方法を用いることができる。最近傍法の場合には、生成されたベクトルとラベルの組をそのまま保存しておく。
次に、認識フェーズでは、入力された画像のラベルを認識辞書1207に基づいて判定する。正規化1204、特徴抽出1205では、学習フェーズと同じ方法により画像を正規化、ベクトル化する。次に、生成されたベクトルがどのラベルに所属するか、認識辞書1207を用いて判定する。最近傍法の場合には、入力画像より生成されたベクトルと最も近いK個(Kは予め定めた正の整数)のベクトルを認識辞書より探索し、それらK個のベクトルのラベルのうち、もっとも数が多いラベルを入力画像のラベルとして判定する。
認識辞書215を用いることで、入力画像が、どの文字、合成文字、または文字要素に近いか、順位付きで出力することができる。
文字情報入力101では、ユーザが入力したい文字の一部を、ウィンドウなどの所定の位置にマウスやタッチパネルの操作などで描くことにより、入力する。例えば、テーブル601の文字C001を入力したいとする。このとき、入力したい文字全体を入力すると、複雑な文字になるほど、文字認識による正解文字との照合が難しく、異体字のように10万種程度の文字種となる場合には、上位に入力したい正解候補を挙げることが難しくなる。そのため、ここでは、文字の一部を入力することで、照合しやすくする。例えば、まず、こざとへんのみを描く。
文字絞り込み探索102では、こざとへんを文字部品として含む文字に入力候補を絞り込む。この方法を説明する。認識辞書215には、入力画像を文字の部品となる文字要素(文字部品)または合成文字と照合するための情報が保存されている。ここでは、ユーザが入力した画像との類似度が高い文字要素または合成文字を算出する。類似度が高い順に予め指定した数だけ類似度が高い順に文字要素または合成文字を算出してもよいし、予め定めた閾値以上となる類似度の文字要素または合成文字を算出してもよい。類似度は、先に統計的識別フェーズなどで説明した方法などで計算してもよい。
ここで、算出された文字要素または合成文字をユーザに出力し、ユーザは入力しようとした文字要素または合成文字を選択する。ここで、こざとへんの例では、こざとへんは、すでに説明した文字分解処理により、複数の文字の中で現れるため、文字要素または合成文字に含まれると想定される。認識辞書による照合により、こざとへんが候補として上位に現れるため、ユーザによりこざとへんが選択される。これにより、こざとへんを文字部品としてもつ文字に候補が絞られる。ここで、こざとへんを部品としてもつ文字をユーザに提示する。
次に、入力文字選択終了103では、入力文字の選択が終了したかどうかを次のように判定する。文字絞り込み検索102で、候補として提示された文字をユーザが入力文字として選択すれば、その文字が入力され終了する。提示された候補から選択できなかった場合には、文字情報入力101に移り、さらにユーザに文字情報の入力を促す。
たとえば、こざとへんの例では、こざとへんをもつ全ての文字が候補として出力されるため、候補が多すぎて選択が困難であることが想定される。そのため、文字情報入力101に移り、さらに文字情報を入力する。
文字C001の例の場合、文字情報入力101では、こざとへん以外の文字部品である「允」の部分をユーザが入力する。同様にして、文字絞り込み検索102で、現在まで絞り込みを行った文字(こざとへんを部品としてもつ文字)の中から、さらに「允」を部品としてもつ文字が絞り込まれる。ここで、こざとへんをもち允と類似した字形の部品をもつ文字が候補として出力される。ここで、ユーザが入力したい文字が見つかれば、入力文字選択終了103にて、処理を終え、文字が入力される。
異体字にはかなり複雑な字形をもつ文字が多数含まれる。また文字種も10万種近く存在する。このような複雑な字形では、精度の良い文字の認識が困難となる。そこで、本実施例のように、文字を部品ごとに絞り込むことによって、効率よく入力したい文字の絞り込みを行うことが出来る。
異体字の文字種は多いが、図4の例のように、その部品は常用漢字の部品にも現れる字形であることが多い。そのため、部品に分解すれば、部品の数は異体字の字種数よりは少なくなることが期待できるため、認識辞書215を用いた認識対象字種は少なくすることが出来る。また、認識対象の字形も単純化できる。
なお、本実施例では、ユーザによる部品部分の入力、および、絞り込みを繰り返す形となっているが、最初から、部品ごとに全て入力してもらい、それらをそれぞれ認識辞書215により照合し、類似度と照合結果に基づいて、候補文字を出力してもよい。
また、文字要素と合成文字に、その位置情報も保持しておいても良い。これによって、文字絞り込みの効率を上げることができる。
図8は文字領域と位置情報の例を説明する図である。図8を用いて位置情報を保持する例について説明する。図8のテーブル801に示すように、文字領域を複数の領域、例えば9つの領域に分ける。正方格子以外の格子に分けても良い。そして、各文字要素や合成文字、文字部品が占有する領域(例えば、黒画素が一定以上となる領域)を、テーブル602のような文字要素テーブルやテーブル604、605、テーブル702のような合成文字テーブルに保存しておく。また、これらのテーブルを画面などに出力して、文字要素と共起度を確認できるようにしてもよい。確認する事によって、文字分析の妥当性の確認や、閾値の調整などが可能となる。
そして、文字情報入力101では、ユーザは入力したい文字の部品を描くとともに、画像領域901のように任意で位置情報も指定する。画像領域901では1、4、7の領域をユーザが指定している。このとき、文字絞り込み検索102では、この指定領域と文字要素テーブルや合成文字テーブルに保存されている文字領域との重なりがある文字要素と合成文字、文字部品のみを検索対象とする。これによって、効率的に文字を絞り込むことが出来る。
さらに、文字要素や合成文字、文字部品のうちUTF−8、SJIS,EUCのような文字コードをもつ文字形と合致するものや、文字情報基盤に含まれる文字形と合致するもの(MJコード)については、これらの文字コード情報を文字要素テーブルや合成文字テーブルに保持しておくとよい。これは、UTF−8やMJコードをもつ文字と照合するための文字認識辞書を学習しておき、これと文字要素や合成文字を照合することで、文字要素や合成文字に自動的に文字コードを付与してもよいし、コストはかかるが人手により作成しておいてもよい。
このようなコードを保持しておくことで、文字情報入力101において、手書きで文字を入力するかわりに、コードで入力することができ、文字絞り込み検索102が正確になる。例えば、文字情報入力101において、「允」を入力する場合には、これを手書きで描く代わりに、「允」を通常の常用漢字の入力のように入力することができる。また、こざとへんの入力の場合には、対応するMJコードを入力することができる。これにより、認識辞書215による照合は不要となり、正確かつ高速に、文字情報入力101で入力された部品を含む文字を絞り込むことができる。これにより、高速に文字を入力できる。
<3.文字検索に用いるユーザーインターフェィス(1)>
図14にユーザーインターフェィスの例を示した。まず、ユーザによる、1403、1404、1405、1407、1408のひとつ以上の箇所に入力したい文字、または文字部品の情報の入力を受け付ける。1403は部品画数、1404は部品のMJコードを入力する箇所である。また、1405は文字を通常のキーボード入力の方法での入力を受け付ける。例えば、常用漢字等であれば、SJISやUTFコードをもっているため、通常のキーボード入力の受付が可能である。例えば、「允」などの文字の場合には、通常通り字形の入力を受け付ける。例えば、1407には手書きによる文字形の入力を受け付ける。1408では、文字部品の占める主な位置の指定を受け付ける。
図9は、文字領域と位置情報の例を説明する図である。例えば、テーブル702の文字部品I004を検索したい場合には、文字入力1405にて「允」の入力を受付け、位置指定1408に、図9で示す2,3,5,6,8,9の位置の指定を受け付ける、などとする。情報の入力の受付けが終われば、検索1402で検索すると、図1の各処理により部品検索結果(候補)が1409に示される。1410には、その部品を含む文字候補が示される。1409からユーザが選択すれば、それが文字部品として選択され、1410からユーザが選択すれば、それが最終的にユーザが入力したい入力文字として選択される。1406にはこれまでに選択した文字部品を合成したテーブル601の文字C001を入力したいとして、まず「允」を検索し、その選択を受け付けたとすると、1406のように「允」が表示される。次に、こざとへんを1407、1408の例のように入力すると、1409、1410のように候補文字が示される。ここで、1410より入力したい文字を選択することによって、最終的な入力文字が指定される。
また、異体字の種類は多く、予めあらゆる文字種を準備することは難しく、準備した文字種のいずれとも異なる未知の文字種の入力が必要となる場合がある。そのような場合には、入力したい文字のフォントが存在しない。そのような文字が現れた場合に、ユーザが入力したい文字部品と文字領域を指定することで、文字要素と合成文字を認識辞書215により照合し、当該文字種が準備されていない場合には、これらの部品のフォントを組み合わせて、入力したい文字のフォントを合成することができる。
異体字は、複雑であるが、その部品は、他の文字にも現れる字形であることが多いため、この方法により未知の文字の入力にも対応できる場合がある。
この例について、図1を用いて説明する。
まず、文字部品情報入力106では、文字の部品に関する情報をユーザが入力する。これは、文字情報入力101の場合と同様に、文字部品の手書き画像や、画数、コードなどである。
次に、文字部品抽出107では、ユーザが入力した文字部品に関する情報に基づいて、文字部品候補を抽出する。
次に、文字部品選択108では、文字部品候補の中からユーザが文字部品を選択する。選択終了判定109では、全ての文字部品が選択されたかどうか判定し、選択されていない文字部品がある場合には、106の処理に戻り、残りの文字部品を選択する処理を行う。
選択が終了すれば、フォント生成110で、文字部品画像を合成することにより、入力したい文字のフォントを生成する。合成する場合の各文字部品画像の位置の調整などはユーザが行っても良いし、各文字部品の位置情報に基づいて自動的に行っても良い。このようにして、未知の文字の入力にも対応できる。
文字入力111では、合成されたフォントを用いて文字を入力する。
なお、フォント生成による文字入力は、すでに101〜103の処理のフロー図で説明した方法により文字が見つからず、文字入力ができない場合にのみ、用いるなどとすればよい。
処理101〜103では、文字の情報を入力することで文字を検索する。これに対し、上記のフォント生成では、処理106〜108までは文字部品を検索する。処理101〜103では、文字の分解情報を用いることで検索を効率化した。同様のことを、処理106〜108についても行っても良い。つまり、文字部品自体が、より小さい文字部品に分解できる。このような入れ子状の分解情報を文字の分解情報と同様にして階層的に保存しておくことにより、処理101〜103と同様の方法によって文字部品の検索を効率化することができる。この場合には文字の分解情報に加えて、文字分解に用いられる文字部品に対しても、その分解情報を保存しておく。文字部品の分解情報の生成、および保存方法については、文字の場合と同様であるため、説明は省略する。
なお、本発明の方法は、中国で用いられる簡体字、繁体字などの漢字についても適用可能である。
また、自治体等、異体字を扱う組織においては、異体字を識別するために独自の識別コードやフォントを用いているケースが想定される。そのような場合において、異なる組織の異体字データベース(異体字画像とその識別コードの組からなるデータベース)を収集し、本発明の方法により分解することによって、異なる識別コードの文字であっても、同一文字であれば、同一の部品で構成されていることが検出できる。異体字のような複雑な文字で、文字サンプルの数も少ない場合には、文字同士の直接のマッチングにより一致と不一致を判定することが難しい場合があるが、部品に分解することにより、文字形が一致するかどうかが判定し易くなるケースがある。このような状況において、文字形が同じ文字を検出し、共通のコードを付与することによって、異体字を扱う異なる組織間においてもデータの移行が容易となる。
また、本発明の方法は、異なる組織間から収集された異体字データベースにおいて、識別コードが組織間で統一されていない場合においても、識別コードとは関係なく、同一文字における共起回数をもとに文字分解を行うことができるため、適用が可能である。
また、上記の例では文字要素の文字での共起回数に基づいて、文字部品を生成したが、ユーザが検索時に描く文字の単位を画像データとして蓄積しておき、ユーザが描く画像の単位を、その頻度が一定以上の場合には、文字要素またはその合成文字とその画像を照合し、照合された文字要素またはその合成文字を文字部品として定めるようにしてもよい。
このようにすることで、ユーザが検索時に思い描き易い単位を文字部品として定めることができる。
本発明によって生成された文字分解情報は人手によるメンテナンスにより、修正してもよい。例えば、テーブル701に示される文字とそれを構成する文字部品の情報、および、テーブル702に示される文字部品の情報をメンテナンス画面に表示し、人手による修正をしてもよい。このとき、修正を補助する情報として、文字部品の共起頻度の数、位置情報、標準文字コード情報(存在する場合)、その文字部品を含む文字の表示、文字の分解の様子を文字部品ごとに色分けして表示するUIなどをつけると良い。
<4.文字検索に用いるユーザーインターフェィス(2)>
作成方法は上記の実施例に限らないが、文字を部品に分解して作成した文字分解情報を用いて、所望の文字を検索する方法は種々考えられる。ただし、できるだけ入力者の負担が少なく、かつ、所望の文字が容易に得られる方式が望ましい。以下では、手書き入力を用いた、文字検索用ユーザーインターフェィスの例を説明する。手書き入力としては、その場で手書きをするものと、前もって手書きを行った書類をデータ化したものの両方を含む。なお、印字された文字にも適用可能であることはいうまでもない。
<3.文字検索に用いるユーザーインターフェィス(1)>では、文字部品を描画入力して検索する例等を示したが、手書き入力を行う場合には、どこで文字を分解するか考えずに、そのままの文字を記入するほうが入力者にとっては自然である。そこで、一つの文字をそのまま手書き入力できるインターフェースを検討する。この場合、入力文字とマッチングを行う辞書は、文字部品レベルに分解されているため、入力文字をシステム側で自動的に文字部品に分解してやれば、入力者は意識せずに、文字部品レベルのマッチングを行うことができる。
図15は、本実施例の処理の流れを示すフロー図である。この処理は、図2に示した構成のシステム201で、ソフトウェアを演算装置206で実行することで行うことができる。
文字入力処理S1510では、検索の対象となる文字画像を入力する。これは、入力装置202から手書き入力で行うことができる。あるいは、イメージ取得装置から入力された文字画像等でもよい。あるいは、他の情報処理装置から送信された文字画像でもよい。
文字細分化処理S1520では、入力された文字画像を細分化あるいは文字分解して文字部品を生成する。この処理は、図3で説明した文字細分化処理301と同様でよい。あるいは、他の画像処理アルゴリズムを用いて分解してもよい。
文字部品生成保存処理S1530では、文字を分解した文字部品について、記憶装置(外部記憶装置207でもよいし、図示しない一時メモリでもよい)に記憶する。処理内容は図3で説明した文字部品生成・保存処理303と同様でよい。図3の処理と異なり、クラスタリングや、文字要素をまとめる処理は必要なく、分解された文字部品をそのまま入力文字と関連付けて保存すればよい。
6(A)〜(E)に入力文字データの保存形式例を示す。入力文字IDに対応付けられて、文字画像データが格納される(図6(A))。また、入力文字IDに対応付けられて、文字要素画像として、文字部品に分解されたデータが格納される(図6(B)(C))図には示していないが、同時に、各文字要素画像の配置、大きさ、縦横比、傾き等のデータを付加してもよい。
図15の辞書検索処理S1540では、文字部品について、辞書検索を行う。辞書検索では、図6(A)〜(E)に示した文字部品と認識辞書215との照合を行う。認識辞書および照合方法については、<2.認識辞書と文字分析システム>や、図1、図8、図12、図13で説明したものを使用すればよい。もっとも、認識辞書の生成方法や文字画像の細分化方法、分解方法は、上記した実施例には限らない。
認識辞書の最も基本的な構成は、文字画像データと、文字部品画像データと、文字画像データと文字部品画像データの対応を示す情報からなる。具体的には、例えば図6(A)のような、文字IDと文字画像の組のデータと、図7の702に示す文字部品IDと文字部品画像の組のデータと、図7の701に示す文字IDと文字部品IDの組のデータを有する。データ702の文字画像と、文字部品1631と1632の画像マッチングを行い、適合する文字部品IDを得ることができる。画像マッチングの方法については、種々の従来技術を適用することができ、特に限定されない。
図15の文字抽出処理S1550では、検索された文字部品を含む文字を抽出する。検索された文字部品を含む文字は、図7の701に示す、文字IDと文字部品IDの組をデータとして持つデータテーブルを検索することにより、抽出することができる。
なお、上述のように入力文字を分解して文字要素画像1630を生成するアルゴリズムと、認識辞書を作成する際に用いる文字分解のアルゴリズムとは、異なっていてもよいが、同じアルゴリズムを用いれば、同じ文字は同様の文字部品に分解されることが期待できるので、照合時の精度向上が期待できる。
図15の表示処理S1560では、抽出した文字を表示し、ユーザが確認、選択を行う。
<5.文字検索を応用した文書情報の利用(1)>
<4.文字検索に用いるユーザーインターフェイス(2)>等、上述した技術では、文字を入力するユーザの負担を低減して、入力された文字に対応する文字を認識辞書から抽出することができる。このような技術を応用した、既存文字情報の二次利用の例を説明する。
事業主体、例えば地方自治体や企業によって、情報システム(サーバー、情報処理端末や情報機器)で使用する文字を規定した文字コードが複数種あり、情報システムによって、対応した文字コードが異なっている場合がある。また、情報システムによって、使える文字の水準(漢字の数)が異なっておいる場合がある。例えば戸籍情報システムでは、使用できる文字の水準が高く、数万文字の漢字を扱っている。
ある事業主体Aで決められた文字コードで作成した電子化文書(電子データ)を、他の事業主体Bに送り、事業主体Bで利用する場合、当該他の事業主体Bで文字コードのルールが異なっていると、電子データをそのまま利用することができない。このような場合は、文字コードが異なる文字については、画像データを事業主体Aから事業主体Bに送り、事業主体Bでは画像データに基づいて、既存の文字コードを割り当てたり、新しく文字コードを作成したりする必要がある。これは、人手を介する必要があり煩雑である。
図16で上記の課題を具体的に示す。事業主体Aの文書データを、事業主体Bで利用することを考える。事業主体Aと事業主体Bは、文字(画像)とコードを関連付けた文字データベースを利用し、情報処理システム上で紙文書を電子データ化したり、電子データを格納・送信したりすることができる。ここで、上述のように、システムごとに使用できる文字コードが制限されている場合がある。最も一般的な文字コード体系は、例えばJIS漢字コードで、1〜4までの水準がある。JIS漢字コード第1水準であれば、ほとんどの情報処理装置で使用することができる。図16において、事業主体Aと事業主体Bは、JIS漢字コード第1水準のような共通文字データベース1610を備えるものとする。このデータベースは例えば名字の「渡辺」の「渡」「辺」を共通のコードC01,C02のように管理しているため、文字コードで文字情報をやり取りすることが可能である。
一方、JIS漢字コードだけでは、氏名や住所を正確に表示するためには不足する場合がある。共通文字データベース1610に登録されていない文字については、事業主体は独自に外字としてデータベースに登録する必要がある。例えば、「辺」の字には約30の異体字があるといわれる。共通文字データベース1610にない文字については、外字データベース1620A、1620Bに、事業主体ごとに登録する。この場合、同じ文字であっても文字コードはA01,B99のように異なることがあるため、事業主体Aのデータはそのままでは事業主体Bでは使用できない。
このような課題を解決するためには、理想的には全ての文字に対してコードを割り付けた統合文字データベースを作成して使用すればよい。このような包括的な統合文字データベースとしては、政府や自治体で準備している住民基本台帳ネットワーク統一文字(約21000字)や、戸籍統一文字(56040字)がある。これらは、住民基本台帳ネットワーク関連業務や戸籍業務などの特定範囲で使われるデータベースであるが、さらにこれらを統合した「文字情報基盤」が独立行政法人情報処理推進機構(IPA)で準備されている。「文字情報基盤」は6万文字弱の文字を含むため、ほとんどの文字に対応可能と考えられる。しかし、現在稼働中のシステムを全てこれに対応させる(例えば文字コードを付け直す)のは、時間も費用もかかる。そこで、より迅速に、低コスト、低負担で対応可能とする実施例を以下に説明する。
図17は本実施例の全体概要図である。本実施例では、例えば、「文字情報基盤」を共通文字基盤データベース1710として利用する。そして、当該共通文字基盤データベース1710に格納されている各文字を、例えば、前記<1.文字画像データベースと文字分解情報の作成>、<2.認識辞書と文字分析システム>で説明した手法により文字部品に分解し、文字認識辞書として用いる共通文字部品データベース1720を作成する。この共通文字部品データベース1720は、1回作成しておけば、何度でも検索に利用できる。
図18は共通文字基盤データベース1710と共通文字部品データベース1720の詳細説明図である。例えば、共通文字基盤データベース1710に格納されている、コードJ01の「辺」の異体字は、共通文字部品データベース1720において、コードP01〜P04の文字部品に分解されて格納される。図18では1文字分のデータしか示していないが、共通文字基盤データベース1710に含まれるその他の文字についても、同様に文字部品に分解される。また、必要に応じて<1.文字画像データベースと文字分解情報の作成>で説明したクラスタリングで類似の文字部品を纏め、共通文字部品データベース1720を作成する。このとき、共通文字部品データベース1720には、図8,9で説明したように、文字中の文字部品の配置の情報を付加情報として含めてもよい。付加情報としては他に、文字部品の大きさ、縦横比などが考えられる。また、必要に応じて、文字コードと文字部品コードを対応付けた、文字部品関連データベース1730を準備してもよい。
共通文字基盤データベース1710が広範囲な文字を含んでいるため、このようにして作成された、共通文字部品データベース1720は、広範囲な文字の文字部品を含むと考えられる。
図17に示したように、事業主体A,Bはこのような、共通文字基盤データベース1710と共通文字部品データベース1720を利用可能とする。利用可能とするには、データベースのコピーを保持していてもよいし、図17のようにデータベースを格納したサーバ等に、通信網を介してアクセス可能に構成してもよい。
ここで、具体的な例として、図17の事業主体Aから事業主体Bに、事業主体Aで使用していた文書データを送信し、事業主体Bで当該データを利用することを考える。
図19は、事業主体Aのデータ送信処理を示すフロー図である。
処理S1910では、送信すべき文書の文字をコード化する。このとき、図16、図17の共通文字データベース1610に登録されている文字は、共通文字データベース1610のコードに変換され、外字データベース1620Aに登録されている文字は、外字データベースのコードに変換される。このとき、共通文字データベース1610に登録されている文字は、事業主体Bでも同じコードで使用できる。しかし、事業主体Aの外字データベースのコードが割り振られている文字は、事業主体Bではそのまま利用できない。なお、ワードプロセッサの文書ファイルなど、文字が最初からコード化されている場合は、送信すべき文書データを準備するだけでよい。
処理S1920では、文書データから共通文字データベース1610にないコードを抽出する。例えば、図16で「渡辺」の「辺」が共通文字データベース1610に登録されていない異体字であった場合には、当該文字の外字コードA01を抽出する。
処理S1930では、共通文字データベース1610にないコードに対応する文字の画像を、文書データに添付する。共通文字データベースにないコードとは、外字データベース1620Aに登録されているコードである筈なので、外字データベース1620Aを検索し、当該コードに対応する文字画像を抽出する。抽出した文字画像データは、文書データ中の外字コードと関連付けて添付する。例えば、文書データ中の外字コードの前や後ろに、特殊符号を付しておき、受信側で認識できるようにしてもよい。あるいは、外字コードを画像データを特定する別のコードに置き換えてもよい。
処理S1940では、文字画像を添付した文書データを事業主体Bへ送信する。送信方法は、オンラインでもよいし、郵便その他の手法によるオフラインでもよい。
図20は、文書データを受信した事業主体Bの処理を示すフロー図である。
処理S2010では、事業主体Aからの文書データを入力する。
処理S2020では、例えば、特殊符号を用いて添付されている文字画像を抽出する。図16の例では、事業主体Aの外字A01の「辺」の異体字が添付されているので、これを抽出する。先に述べたように、事業主体Bでは「辺」の異体字は外字データベースでB99として管理されているので、このまま使用することができない。
処理S2030では、文字画像を文字部品に分解し、文字部品で共通文字部品データベース1720を検索し、文字部品を含む文字を抽出する。この処理は、図15で説明した処理と同じであり、検索する辞書として、図18に示す共通文字基盤データベース1710、共通文字部品データベース1720を用いる点が特有である。図18の例で説明すれば、事業主体Aの外字A01の「辺」の異体字の画像は、文字部品に分解され、各文字部品により共通文字部品データベース1720を検索する。ここでは、共通文字部品として、P01〜P04が該当する。そこで、文字部品関連データベース1730を参照すると、共通文字基盤データベースのコードJ01の文字が抽出される。この処理では、検索結果となる文字が複数ある場合には、オペレータが目視などで一または複数を指定する。
処理S2040では、最終的に決定された文字画像に対応する文字を、共通文字基盤データベース1710のコードで置き換える。以上で作成された文書データは、全ての文字コードが、共通文字データベース1610か共通文字基盤データベース1710に存在するコードとなる。よって、事業主体Bでそのまま電子データとして利用することができる。
以上の処理によると、事業主体Bでは、自事業主体ではコードを割り当てていない文字を受信した場合でも、当該文字に該当する共通文字基盤データベースのコードを容易に得ることが可能となる。
なお、以上の説明では、事業主体Aから外字文字画像を添付した文書データを事業主体Bに送付し、事業主体Bで文字画像の分解や共通文字部品データベース1720の検索を行ない、文字部品を含む文字を抽出した(図15のS1510〜S1560)。
他の例としては、事業主体Aで外字文字画像の分解と、文字部品による共通文字部品データベース1720の検索までを行う(図15のS1510〜S1540)。その後、検索結果である文字部品コードを事業主体Bに送付し、事業主体Bにおいて、文字部品を含む文字を抽出してもよい。
<6.文字検索を応用した文書情報の利用(2)>
図21は送信側の事業主体Aの他の処理例を示すフロー図である。図19、図20と同じ構成の処理は同じ番号で示している。図21の例では、送信側で共通文字DBにないコードに対応する文字の画像を抽出し(S2110)、共通文字部品データベース1720の検索を送信側で行っている。この例から明らかなように、共通文字部品データベースの検索は、データベースにアクセス可能な主体なら、いずれが行ってもよい。図21の例では、送信側の事業主体Aで、外字に対応する共通文字基盤データベースのコードを付して、事業主体Bに送信している。よって、文書データを受信した事業主体Bは、共通文字基盤データベース1710のコードを参照することによって、文字を特定することができる。
この例では、事業主体Bの処理の負担を事業主体Aで分担しているので、事業主体Bのリソースが限定される場合には有効である。
<7.文字検索を応用した文書情報の利用(3)>
図17〜図22の例では、文字を広範囲に網羅する共通文字基盤データベースを、複数の事業主体が共同で利用するものであり、効果が大きい。ただし、事業主体単独の設備投資により、より早期に対応したい場合もある。
図22は、このような要求に対応する実施例である。図18では共通文字基盤データベース1710を基に、共通文字部品データベース1720と文字部品関連データベース1730を作成したが、図22では、事業主体Bの外字データベース2210を基に、文字部品データベース2220と文字部品関連データベース2230を作成する。用いるデータベースが異なるだけで、他の処理は同様である。
事業主体Aから事業主体Bへ文書データを送る処理は、図19で説明したものと同様である。事業主体Bで受信した文書データの処理方法は、図20で説明したものと基本的に同じであるが、処理S2030で、共通文字部品データベース1720ではなく、事業主体Bの文字部品データベース2220を用いる点が異なる。このような処理により、事業主体Bは、自事業主体のデータベースでコードがない文字についても、コードを割り当てることが容易となる。
なお、共通基盤関連データベース2240は、事業主体の外字データベースと、共通文字基盤データベースの文字のコードを、対応付ける情報を管理するものである。このような情報を予め準備しておけば、事業主体の外字データベース1620のコード(例えばB99)を求めれば、共通文字基盤データベース1710のコード(例えばJ01)を知ることができる。
<8.文字検索を応用した文書情報の利用(4)>
図23は他の例を示す。図23はネットワークNWを介して、事業主体A、事業主体B、処理装置(サーバー)230が接続されている。処理装置230は、共通文字基盤データベース1710、共通文字部品データベース1720、外字データベース231、共通文字データベース1610を利用可能である。外字データベース231は、事業主体の外字データベース1620A,1620Bその他の内容を格納しているものとする。また、同じ文字に関する各文字データベースのコードは、対応付けておいてもよい。図23の例では、上述の例で事業主体Aや事業主体Bが行っていた処理を、処理装置230が代行して行う。
例えば、事業主体Aが事業主体Bへ自分の文書データを転送する場合を考える。処理装置230の処理例としては、以下を含むいくつかの態様が考えられる。
1)事業主体Aは、共通文字データベース1610にコードが存在する文字はそのコードにより、それ以外の文字は文字画像データを付して、処理装置230に転送する。
処理装置230は、図20で説明した処理を行い、文字画像データの文字に共通文字基盤データベース1710のコードを割り当て、事業主体Bに転送する。事業主体Bでは、共通文字データベース1610のコードと、共通文字基盤データベース1710のコードで、文書を取り扱うことができる。
2)事業主体Aは、文書文字コードをそのまま処理装置230に送付する。処理装置230は、共通文字データベース1610のコードはそのままにしておき、外字データベース231にコードがある文字は、その文字画像データを抽出する。抽出された文字画像データに対して、図20で説明した処理を行い、文字画像データの文字に共通文字基盤データベース1710のコードを割り当て、共通文字データベースのコードとともに事業主体Bに転送する。
3)この例では、共通文字基盤データベース1710と共通文字データベース1610の、同じ文字に関するコードは、対応付けられており、相互変換可能とする。事業主体Aは、文書文字コードをそのまま処理装置230に送付する。処理装置230は、共通文字データベース1610のコードを共通文字基盤データベース1710のコードに変換する。外字データベース231にコードがある文字は、その文字画像データを抽出する。抽出された文字画像データに対して、図20で説明した処理を行い、文字画像データの文字に共通文字基盤データベース1710のコードを割り当て、事業主体Bに転送する。事業主体Bでは、全てが共通文字基盤データベース1710のコードに変換された文書を利用することができる。
図23のようにネットワークで接続されたサーバで実施例を構成する場合は、検索対象となる文字画像を分解して文字部品とする処理、文字部品と共通文字部品データベースを照合する処理、照合された文字部品を含む文字を抽出する処理、抽出結果を確認する処理、の各処理は、同一の情報処理装置で実行されてもよいし、複数の情報処理装置で分担して行われてもよい。複数の情報処理装置の場合は、ネットワークで接続されていれば、ネットワーク上のいずれに存在してもよい。
例えば、検索対象文字を文字部品へ分解した後、共通文字部品データベース1720との照合のみ行い、照合の結果得られた文字部品IDを別の情報処理装置へ送信し、当該別の主体でその文字部品を含む文字の出力を行ってもよい。その場合、当該別の情報処理装置において、受信した文字部品IDを含む文字を、例えば図7のテーブルを検索することで抽出することができる。あるいは、テーブルの検索はせず、文字部品IDから文字部品画像を生成し、所定ルールで組み合わせた文字候補を複数表示して、オペレータが選択するように構成してもよい。
本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることが可能である。また、各実施例の構成の一部について、他の実施例の構成の追加・削除・置換をすることが可能である。
201 文字分析システム
202 入力装置
203 表示装置
204 イメージ取得装置
205 通信装置
206 演算装置(CPU)
207 外部記憶装置
213 文字画像DB
214 文字分解情報

Claims (15)

  1. 入力装置、演算装置、記憶装置、および出力装置を備える情報処理装置において、
    第1の文字画像の集合と、各文字画像を特定する第1のコードの集合を含む第1のデータベースと、
    第2の文字画像の集合と、各文字画像を特定する第2のコードの集合を含み、各文字画像に一または複数の文字部品の画像を関連付けた第2のデータベースである認識辞書と、
    を用いる文書データ処理方法であって、
    前記入力装置もしくは記憶装置から、第3の文字画像の集合を準備し、前記第3の文字画像の集合に対応した、第3のコードの集合を含む文書データを準備する第1のステップ、
    前記演算装置により、前記第3のコードの集合中の、前記第1のコードの集合中に存在しないコードを抽出する第2のステップ、
    前記演算装置により、前記抽出されたコードに対応する文字画像を、前記第3の文字画像の集合から抽出する第3のステップ、
    前記演算装置により、前記抽出した文字画像を、検索対象となる検索対象文字画像とする第4のステップ、
    前記演算装置により、前記検索対象文字画像を2値化処理して連結成分ごとに分解することにより、複数の部分に分解して、複数の検索対象文字部品の画像を生成する第5のステップ、
    前記演算装置により、前記複数の検索対象文字部品の画像の其々を、前記認識辞書の文字部品の画像と照合する第6のステップ、
    を有し、
    前記第6のステップは、
    前記複数の検索対象文字部品の画像の其々を、前記認識辞書の文字部品の画像とパターンマッチングし、
    前記複数の検索対象文字部品の画像の全てが文字部品として関連付けられた文字画像を、前記第2の文字画像の集合から抽出し、
    前記第2のコードの集合から、前記抽出した文字画像を特定するコードを抽出し、
    前記検索対象文字画像に対応する前記第3のコードの集合中のコードを、前記第2のコードの集合から抽出したコードに置き換える、
    文書データ処理方法。
  2. 前記情報処理装置として、送信側入力装置、送信側演算装置、送信側記憶装置、および送信側出力装置を備える送信側情報処理装置と、受信側入力装置、受信側演算装置、受信側記憶装置、および受信側出力装置を備える受信側情報処理装置とを用い、
    第1の手法か、第2の手法のいずれかを実行するものであって、
    前記第1の手法は、
    前記第1のステップ、前記第2のステップ、および前記第3のステップを、前記送信側情報処理装置で実行し、
    前記第3のステップで抽出された文字画像を前記文書データに付加して、前記送信側情報処理装置から前記受信側情報処理装置に送る第1の送信ステップを実行し、
    前記第4のステップ、前記第5のステップ、および前記第6のステップを、前記受信側情報処理装置で実行するものであり、
    前記第2の手法は、
    前記第1のステップ、前記第2のステップ、前記第3のステップ、前記第4のステップ、前記第5のステップ、および前記第6のステップを、前記送信側情報処理装置で実行し、
    前記第6のステップでコードを置き換えた新たな文書データを、前記送信側情報処理装置から前記受信側情報処理装置に送る第2の送信ステップを実行するものである、
    請求項1記載の文書データ処理方法。
  3. 前記第1の手法を実行するものであって、
    前記第3のステップでは、前記抽出された文字画像を、前記文書データに添付して作業文書データを作成し、
    前記第4のステップでは、前記作業文書データに添付された文字画像を、前記検索対象文字画像とする、
    請求項2記載の文書データ処理方法。
  4. 前記第3のステップで作成した作業文書データを、可搬性記録媒体に記録保存し、
    前記第4のステップでは、前記可搬性記録媒体から前記作業文書データを読み出し、前記作業文書データに添付された文字画像を取り出す、
    請求項3記載の文書データ処理方法。
  5. 前記第3のステップで作成した作業文書データを、有線もしくは無線通信網経由で送信し、
    前記第4のステップでは、受信した前記作業文書データから、前記作業文書データに添付された文字画像を取り出す、
    請求項3記載の文書データ処理方法。
  6. 前記第2の手法を実行するものであって、
    前記第2の送信ステップは、
    前記新たな文書データを、記録媒体に記録保存するか、あるいは、有線もしくは無線通信網経由で送信する、
    請求項2記載の文書データ処理方法。
  7. 前記認識辞書を作成する際に、前記文字画像に対応する複数の文字部品を生成するアルゴリズムと、前記検索対象文字画像を複数の部分に分解して、複数の検索対象文字部品を生成するアルゴリズムに、共通のアルゴリズムを用いる、
    請求項1記載の文書データ処理方法。
  8. 入力装置、演算装置、記憶装置、および出力装置を備える文字検索システムであって、
    当該システムは、
    文字画像と、当該文字画像を特定するコードと、当該文字画像に対応する複数の文字部品の画像を関連付けたデータセットを、複数格納する認識辞書をアクセス可能であって、
    前記入力装置は、
    文書データと、該文書データに添付された検索対象となる検索対象文字画像の入力を受付ける機能を有し、
    前記演算装置は、
    前記文書データに添付された検索対象文字画像を得る機能と、
    前記検索対象文字画像を2値化処理して連結成分ごとに分解することにより、複数の部分に分解して、複数の検索対象文字部品の画像を生成する機能と、
    前記複数の検索対象文字部品の画像の其々を、前記認識辞書の文字部品の画像と照合し、前記複数の検索対象文字部品の画像の全てが文字部品として関連付けられた文字画像を、前記認識辞書から抽出する機能と、
    前記照合の結果前記認識辞書から抽出された文字画像に対応するコードを、前記認識辞書から抽出する機能と、
    該抽出したコードを前記検索対象文字画像に対応するコードとして前記文書データに適用して、新たな文書データを作成する機能を有する、文書処理システム。
  9. 前記記憶装置は、
    文字画像と、当該文字画像を特定するコードを関連付けたデータセットを、複数格納するデータベースを格納し、
    前記新たな文書データは、前記認識辞書のコードと、前記データベースのコードの両者を含む、
    請求項8記載の文書処理システム。
  10. 前記認識辞書を作成した際に、前記文字画像に対応する複数の文字部品を生成するアルゴリズムと共通のアルゴリズムを用いて、前記検索対象文字画像を複数の部分に分解して、複数の検索対象文字部品を生成する、
    請求項9記載の文書処理システム。
  11. 送信元の第1の計算機から送信先の第2の計算機へ文字データを送信する文字データ送信方法において、
    前記第1の計算機および前記第2の計算機は、文字画像と、当該文字画像を特定する文字コードと、当該文字画像に対応する複数の文字部品の画像と、当該文字部品を特定する部品コードと、を関連付けたデータセットを、複数格納する認識辞書を用い、
    前記第1の計算機は、
    第1の文字コードで表現される第1の文字画像を、2値化処理して連結成分ごとに分解することにより、複数の文字部品に分解する分解ステップと、
    前記分解した複数の文字部品のそれぞれを、前記認識辞書を参照して当該文字部品を特定する部品コードに変換する部品コード変換ステップと、
    変換した前記部品コードを、前記第2の計算機に送信する送信ステップと、
    を行い、
    前記第2の計算機は、
    前記第1の計算機から前記部品コードを受信する受信ステップと、
    前記認識辞書を参照して、前記受信した部品コードを全て含むデータセットに関連付けられた、前記第1の文字コードとは異なる第2の文字コードを抽出し、前記第1の文字画像を表現する文字コードを第2の文字コードに変換する文字コード変換ステップと、
    前記変換した第2の文字コードに基づいて前記認識辞書を参照し、文字画像を出力する出力ステップと、
    を行うことを特徴とする文字データ送信方法。
  12. 前記第1の計算機から第2の計算機への文字データの送信は、前記第2の文字コードを扱えるが、前記第1の文字コードまたは第3の文字コードのいずれかを扱うことができない第3の計算機を介して行うことを特徴とする請求項11に記載の文字データ送信方法。
  13. 入力装置、演算装置、記憶装置、および出力装置を備え、
    第1の文字画像の集合と、各文字画像を特定する第1のコードの集合を含む共通文字基盤データベースと、
    前記第1の文字画像の集合の各文字画像に、一または複数の文字部品の画像を関連付けた共通文字部品データベースと、
    第2の文字画像の集合と、各文字画像を特定する第2のコードの集合を含む共通文字データベースと、
    にアクセス可能な文書データ処理システムであって、
    前記入力装置は、前記第のコードの集合に含まれるコードで特定されない文字画像を含むデータを受付け、
    前記演算装置により、前記第2のコードの集合に含まれるコードで特定されない文字画像を、検索対象となる検索対象文字画像とし、
    前記演算装置により、前記検索対象文字画像を2値化処理して連結成分ごとに分解することにより、複数の部分に分解して、複数の検索対象文字部品の画像を生成し、
    前記演算装置により、前記複数の検索対象文字部品の画像の其々を、前記共通文字部品データベースの文字部品の画像と照合し、
    前記演算装置により、前記照合結果に基づいて、前記第1のコードの集合から、前記検索対象文字部品の画像がすべて文字部品の画像として関連付けられた文字画像に対応するコードの候補を抽出する、
    文書データ処理システム。
  14. 記入力装置は、
    前記文字画像を含むデータとして、前記第2のコードの集合から選ばれるコードと、前記第2のコードの集合に含まれるコードで特定されない文字画像を含む文書データを受付ける請求項13記載の文書データ処理システム。
  15. 前記演算装置により、前記第2のコードの集合に含まれるコードで特定されない文字画像を、検索対象となる検索対象文字画像とする、請求項14記載の文書データ処理システム。
JP2015037981A 2015-02-27 2015-02-27 文書データ処理方法およびシステム Expired - Fee Related JP6542546B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015037981A JP6542546B2 (ja) 2015-02-27 2015-02-27 文書データ処理方法およびシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015037981A JP6542546B2 (ja) 2015-02-27 2015-02-27 文書データ処理方法およびシステム

Publications (2)

Publication Number Publication Date
JP2016162040A JP2016162040A (ja) 2016-09-05
JP6542546B2 true JP6542546B2 (ja) 2019-07-10

Family

ID=56847066

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015037981A Expired - Fee Related JP6542546B2 (ja) 2015-02-27 2015-02-27 文書データ処理方法およびシステム

Country Status (1)

Country Link
JP (1) JP6542546B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6713657B1 (ja) * 2019-10-23 2020-06-24 日本加除出版株式会社 外字管理システム
JP7482022B2 (ja) 2020-12-28 2024-05-13 株式会社東芝 制御装置、制御方法及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03160585A (ja) * 1989-11-17 1991-07-10 Sanyo Electric Co Ltd 文字認識方法
JP5387378B2 (ja) * 2009-12-15 2014-01-15 富士通株式会社 文字同定装置及び文字同定方法

Also Published As

Publication number Publication date
JP2016162040A (ja) 2016-09-05

Similar Documents

Publication Publication Date Title
US8429154B2 (en) Document search device, imaging forming apparatus, and document search system
JP6691280B1 (ja) 管理システム及び管理方法
Al-Zaidy et al. A machine learning approach for semantic structuring of scientific charts in scholarly documents
JP2014170539A (ja) 単一セル中の画像データ及びシンボルデータによるテーブルのソート及びフィルタリング
CN110866116A (zh) 政策文档的处理方法、装置、存储介质及电子设备
JP2019113987A (ja) ファイル管理装置、ファイル管理方法、及びプログラム
CN113723270A (zh) 基于rpa及ai的文件处理方法及装置
JP2011248596A (ja) 画像入り文書の検索システム及び検索方法
JP6542546B2 (ja) 文書データ処理方法およびシステム
JP5433396B2 (ja) マンガ画像からテキストを抽出するマンガ画像解析装置、プログラム、検索装置及び方法
Pengcheng et al. Fast Chinese calligraphic character recognition with large-scale data
JP6856916B1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
WO2020211380A1 (zh) 页面设计中前端代码的智能识别方法及相关设备
JP2018037017A (ja) 分析装置、分析方法、および分析プログラム
JPH07182368A (ja) データ加工システム
JP2020030648A (ja) ファイル管理装置、ファイル管理方法、及びプログラム
Budig et al. Glyph miner: a system for efficiently extracting glyphs from early prints in the context of OCR
JP5162215B2 (ja) データ処理装置、データ処理方法、および、プログラム
JP7331551B2 (ja) 情報処理装置及び情報処理プログラム
JP2014134920A (ja) 設計書の検索システム、設計書の検索システムの構築方法およびそのためのプログラム
JP7172343B2 (ja) 文書検索用プログラム
JP6533395B2 (ja) 文字検索方法およびシステム
Szegedi et al. Context-based Information Classification on Hungarian Invoices.
JP2021114225A (ja) ファイル検索システム、ファイル検索方法及びプログラム
CN111090743A (zh) 一种基于词嵌入和多值形式概念分析的论文推荐方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171219

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20180719

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181012

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181023

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181213

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190528

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190613

R150 Certificate of patent or registration of utility model

Ref document number: 6542546

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees