JP5821648B2 - 情報処理装置及び情報処理プログラム - Google Patents

情報処理装置及び情報処理プログラム Download PDF

Info

Publication number
JP5821648B2
JP5821648B2 JP2012007940A JP2012007940A JP5821648B2 JP 5821648 B2 JP5821648 B2 JP 5821648B2 JP 2012007940 A JP2012007940 A JP 2012007940A JP 2012007940 A JP2012007940 A JP 2012007940A JP 5821648 B2 JP5821648 B2 JP 5821648B2
Authority
JP
Japan
Prior art keywords
character
variable
value
blank
character spacing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012007940A
Other languages
English (en)
Other versions
JP2013149014A (ja
Inventor
木村 俊一
俊一 木村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP2012007940A priority Critical patent/JP5821648B2/ja
Publication of JP2013149014A publication Critical patent/JP2013149014A/ja
Application granted granted Critical
Publication of JP5821648B2 publication Critical patent/JP5821648B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Description

本発明は、情報処理装置及び情報処理プログラムに関する。
文字間の空白を検出することに関する技術がある。
これに関連する技術として、例えば、特許文献1には、英文書を認識する際に前後の文字の組み合わせによって異なる文字間スペースを補正することにより、単語間スペースを高精度に検出することを目的とし、入力された英文書画像から個々の文字を切り出して文字間のスペース幅を算出するとともに、切り出された個々の文字を認識し、さらに、各文字間スペースの前後に位置する文字の組み合わせに応じた補正係数を用いて、文字間スペース幅を補正し、次に、得られた各スペース幅の頻度分布をクラス幅毎のヒストグラムとして表し、ヒストグラム中に現れた谷から文字間と単語間とのスペース幅を区分するしきい値を決定することにより、単語間スペースを検出して空白記号を挿入することが開示されている。
また、例えば、特許文献2には、光学的に読み取った画像情報を認識していく処理を能率的に行い、高速化することを目的とし、画像情報の入力中は入力している画像情報の文字切り出しと認識を交互に順次行っていき、画像情報の入力が終了したら、入力された画像情報から文字の切り出しをしてしまい、切り出されたものに対して認識を行うよう制御し、これにより、入力中は順次認識し、入力が終了したら認識するに値するだけの画像情報のみ認識を行うのでむだな処理がなくなることが開示されている。
また、例えば、特許文献3には、文字フィールド中にスペース文字が存在する場合であってもフリーピッチ処理方式によってそのスペース文字をも認識し、処理することができるようにすることを目的とし、文字認識のフリーピッチ処理方式において、文字フィールドの白領域が、所定長さ以上であることを検出するとこの白領域はスペース文字であると判断し、前記所定長さに満たないことを検出するとこの白領域は通常の文字間隔であると判断し、夫々の判断に応じた処理を行うようにすることが開示されている。
特開平05−006459号公報 特開平05−028319号公報 特開昭62−026587号公報
本発明は、文字間隔の分布の谷が存在しない場合であっても、受け付けた文字間隔の統計的性質によって、空白文字がある位置を判定するようにした情報処理装置及び情報処理プログラムを提供することを目的としている。
かかる目的を達成するための本発明の要旨とするところは、次の各項の発明に存する。
請求項1の発明は、文字と文字の間の距離である文字間隔を受け付ける受付手段と、前記受付手段によって受け付けられた文字間隔を2以上の集合に分割するための閾値を定めるための第1の変数と第2の変数であって、該第1の変数は各集合の分布の統計量であり、該第2の変数は各集合に含まれる文字間隔の個数の割合を示す重み係数であり、該第1の変数と該第2の変数の初期値を設定する初期値設定手段と、前記初期値設定手段によって初期値が設定された第1の変数と第2の変数と前記受付手段によって受け付けられた文字間隔に基づいて、前記第1の変数と前記第2の変数を修正する修正手段と、前記修正手段による処理を繰り返すように制御し、予め定められた条件に基づいて、該処理を終了させるか否かを判定する第1の判定手段と、前記第1の判定手段によって前記修正手段による処理を終了させると判定した後に、該修正手段による処理結果である第1の変数と第2の変数によって定まる前記閾値に基づいて、前記受付手段によって受け付けられた文字間隔が空白文字に対応するか否かを判定する第2の判定手段を具備し、前記修正手段による2回目以降の処理は、前回の修正手段による処理結果である第1の変数と第2の変数と前記受付手段によって受け付けられた文字間隔に基づいて、該第1の変数と該第2の変数を修正することを特徴とする情報処理装置である。
請求項2の発明は、前記集合の分布はガウス分布であることを特徴とする請求項1に記載の情報処理装置である。
請求項3の発明は、前記初期値設定手段は、前記閾値が、文字間隔の代表値と最大値の間の値となるように、文字間隔の代表値と文字間隔が大きなほうから予め定められた個数を除いた後の最大値の間の値となるように、又は、文字間隔の代表値と文字間隔が予め定められた値より大である又は以上である文字間隔を除いた後の最大値の間の値となるように、前記第1の変数と前記第2の変数の初期値を設定することを特徴とする請求項1又は2に記載の情報処理装置である。
請求項4の発明は、前記初期値設定手段は、前記閾値が、文字間隔の代表値と最小値の間の値となるように、文字間隔の代表値と文字間隔が小さなほうから予め定められた個数を除いた後の最小値の間の値となるように、又は、文字間隔の代表値と文字間隔が予め定められた値より小である又は以下である文字間隔を除いた後の最小値の間の値となるように、前記第1の変数と前記第2の変数の初期値を設定することを特徴とする請求項1又は2に記載の情報処理装置である。
請求項5の発明は、前記第2の判定手段は、各文字間隔毎に、該文字間隔が空白文字に対応する確率である第1の確率と、該文字間隔が空白文字に対応しない確率である第2の確率を算出し、該第1の確率と該第2の確率とを比較することによって、該文字間隔が空白文字に対応するか否かを判定することを特徴とする請求項1から4のいずれか一項に記載の情報処理装置である。
請求項6の発明は、前記第2の判定手段は、文字間隔が空白文字に対応する確率と、対応しない確率が同じとなる文字間隔値を算出し、該算出した文字間隔値を閾値として、文字間隔が空白文字に対応するか否かを判定することを特徴とする請求項1から4のいずれか一項に記載の情報処理装置である。
請求項7の発明は、文字間隔値の発生頻度が0となる値を閾値とすることを特徴とする請求項6記載の情報処理装置である。
請求項8の発明は、コンピュータを、文字と文字の間の距離である文字間隔を受け付ける受付手段と、前記受付手段によって受け付けられた文字間隔を2以上の集合に分割するための閾値を定めるための第1の変数と第2の変数であって、該第1の変数は各集合の分布の統計量であり、該第2の変数は各集合に含まれる文字間隔の個数の割合を示す重み係数であり、該第1の変数と該第2の変数の初期値を設定する初期値設定手段と、前記初期値設定手段によって初期値が設定された第1の変数と第2の変数と前記受付手段によって受け付けられた文字間隔に基づいて、前記第1の変数と前記第2の変数を修正する修正手段と、前記修正手段による処理を繰り返すように制御し、予め定められた条件に基づいて、該処理を終了させるか否かを判定する第1の判定手段と、前記第1の判定手段によって前記修正手段による処理を終了させると判定した後に、該修正手段による処理結果である第1の変数と第2の変数によって定まる前記閾値に基づいて、前記受付手段によって受け付けられた文字間隔が空白文字に対応するか否かを判定する第2の判定手段として機能させ、前記修正手段による2回目以降の処理は、前回の修正手段による処理結果である第1の変数と第2の変数と前記受付手段によって受け付けられた文字間隔に基づいて、該第1の変数と該第2の変数を修正することを特徴とする情報処理プログラム。
請求項1の情報処理装置によれば、文字間隔の分布の谷が存在しない場合であっても、受け付けた文字間隔の統計的性質によって、空白文字がある位置を判定することができる。
請求項2の情報処理装置によれば、ガウス分布にしたがって、空白文字がある位置を判定することができる。
請求項3の情報処理装置によれば、受け付けた文字間隔によって第1の変数と第2の変数の初期値を設定することができる。
請求項4の情報処理装置によれば、受け付けた文字間隔によって第1の変数と第2の変数の初期値を設定することができる。
請求項5の情報処理装置によれば、文字間隔が空白文字に対応する確率と、その文字間隔が空白文字に対応しない確率によって、文字間隔が空白文字に対応するか否かを判定することができる。
請求項6の情報処理装置によれば、本構成を有していない場合に比較して、少ない計算量で文字間隔が空白文字に対応するか否かを判定することができる。
請求項7の情報処理装置によれば、文字間隔値の発生頻度が0となる値を閾値として、文字間隔が空白文字に対応するか否かを判定することができる。
請求項8の情報処理プログラムによれば、文字間隔の分布の谷が存在しない場合であっても、受け付けた文字間隔の統計的性質によって、空白文字がある位置を判定することができる。
本実施の形態の構成例についての概念的なモジュール構成図である。 本実施の形態による処理例を示すフローチャートである。 文字間隔データテーブルのデータ構造例を示す説明図である。 文字間隔の例を示す説明図である。 文字間隔の例を示す説明図である。 文字間隔の例を示す説明図である。 文字間隔の頻度の例を示す説明図である。 文字間隔の頻度の例を示す説明図である。 文字間隔の頻度の例を示す説明図である。 文字間隔の頻度を示すヒストグラムの例を示す説明図である。 本実施の形態を実現するコンピュータのハードウェア構成例を示すブロック図である。
まず、実施の形態を説明する前に、本実施の形態の前提となる文字間の空白を検出する技術について説明する。
文字認識を行う場合、文字の外接矩形位置と文字コードが出力される。
図4に示されるように、文書400内のABCDの4文字の認識が行われるとする。なお、この場合、文書400は画像とする。このように、文字間隔が異なる場合、文字認識結果としての出力テキスト列には、ABとCDの間にスペースコードを挿入したほうがよい。
又は、PDF(Portable Document Format)等のように文字コードと文字位置を指定して、文書を表示させるようなフォーマットが存在する。このような電子文書フォーマットのビューワでは、図4のABCDの部分をコピー&ペーストすることによって、テキスト列をコピーすることが可能となる。なお、この場合、文書400はPDFの電子文書とする。電子文書のビューワとして、もともとスペースコードが含まれていない場合であっても、文字位置の間隔が広い場合には、テキスト列としてスペースコードを挿入する機能が望ましい。すなわち、出力として、「ABCD」ではなくて、「AB_CD」としたい(左記でアンダースコアはスペース文字、あるいは、空白文字コードを示す)。
このように、文字コードと文字位置のみが与えられた場合に、文字列中にスペース文字を挿入するかどうかを判定するための従来技術が種々存在している。
以下、スペース文字を挿入する場所を「空白文字位置」とする。また、スペース文字を挿入しない場所を「非空白文字位置」とする。本実施の形態は、文字と文字の間が、「空白文字位置」か、「非空白文字位置」かを判定するためのものである。
例えば、特許文献3に記載の技術では、文字と文字の間隔を計測し、文字間隔が予め定められた閾値以上であれば、その間隔は空白文字位置であると判定する。
特許文献3に記載の技術では、予め定められた閾値を用いているため、全体の文字間隔が想定よりも広い場合や、狭い場合に対応困難である。例えば、図5のABCDの行では、ABとCDの間が空白文字位置であると判定するのがよい。しかしながら、図6のEFGHIの行のように、行全体として文字間隔が広い場合、予め定められた閾値を用いると、EとF、FとG、GとHの間が空白文字位置となってしまう。その逆に、スペース文字を挿入すべきであっても、空白文字位置と判定されない可能性もある。
特許文献2に記載の技術では、まず、文字間隔の平均値を算出する。文字間隔の平均値を、予め係数の定められた一次式に代入することによって、閾値を定める。この閾値よりも文字間隔が大きな場合は、空白文字位置であると判定し、小さな場合は非空白文字位置と判定する。
特許文献2に記載の技術では、文字間隔の平均値を用いるため、特許文献3のようなこととはならない。文字間隔が全体的に大きな場合には、閾値も大きくなるためである。しかしながら、閾値を決定するための一次式が固定の係数である。空白文字位置と、非空白文字位置との文字間隔の大きさの差は、文書によって、あるいは、同一文書でも行によって異なるため、閾値の大きさは不適切となってしまう。例えば、閾値の大きさが、文字間隔の平均値のa倍+bと定めるとする。空白文字位置の文字間隔が文字間隔の平均値のa倍+b未満となる可能性は存在する。予め係数を定めておくことは、そのような場合に対応できない。
特許文献1に記載の技術では、文字間隔のヒストグラムを作成する。空白文字位置に対応する文字間隔の値(値A)と、非空白文字位置に対応する文字間隔の値(値B)の2か所に、ヒストグラムのピークが存在する。また、値Aと値Bの間に、ヒストグラムの谷が存在する。この谷の位置を閾値とする。この閾値よりも文字間隔が大きな場合は、空白文字位置であると判定し、小さな場合は非空白文字位置と判定する。
特許文献1に記載の技術では、文字間隔ヒストグラムの谷部分を閾値とする。しかしながら、常にヒストグラムに谷が存在するとは限らない。特に、文字数が少ないときに、空白の検出を失敗することになる。
図7の例に示す文字間隔・頻度分布700のような頻度分布(ヒストグラム)を考える。文字数が少ない場合は、ヒストグラムに明確なピークが存在しない。また、谷、あるいは、頻度0になる位置が多く出現する。そのため、閾値を設定することが困難である。ヒストグラムを用いる方法には問題がある。
前述の場合、文字間隔が1毎にヒストグラムを設定したために問題が発生しており、ヒストグラム計測の幅を適切に決定すれば、山や谷が発生する場合もある。しかしながら、そのような幅を自動的かつ適切に設定することは一般に難しい。例えば、文字間隔2毎に頻度を計測した場合が、図8の例に示す文字間隔・頻度分布800である。この場合も、明確な谷は現れない。
文字間隔3毎に頻度を計測した場合が、図9の例に示す文字間隔・頻度分布900である。この場合も明確な谷が現れない。
以下、図面に基づき本発明を実現するにあたっての好適な実施の形態の例を説明する。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。また、「Aである場合、Bをする」という意味を有する記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
本実施の形態である情報処理装置は、空白文字がある位置を判定するものであって、図1の例に示すように、初期値設定モジュール110、パラメタ修正モジュール120、収束判定モジュール130、空白判別モジュール140を有している。
本実施の形態は、受け付けた文字間隔の統計的な性質に応じて、また、入力文字数が少ない場合であっても、空白文字位置を判定するものである。また、本実施の形態は、文字列中の空白文字(スペース文字)を判別あるいは検出するものであり、例えば、文字コードと文字位置から、文字列を生成することに利用される。特に、文字認識を行う場合に、出力文字列中に空白文字コードを挿入する場合等に用いるようにしてもよい。
まず、本実施の形態の概要を示す。
まず、文字間隔の測定値をx(i=1,2,…,n)とする。Xを確率変数とする。Xは式(1)である。
Figure 0005821648
ここで文字間隔が非空白文字位置であるとき、その文字間隔Xは、(2)式の分布に従うとする。
Figure 0005821648
ただし、θは、確率密度関数の形状を示すパラメタである。
同様に、文字間隔が空白文字位置であるとき、その文字間隔Xは、(3)式の分布に従うとする。
Figure 0005821648
ただし、θは、確率密度関数の形状を示すパラメタである。
文字間隔Xは、前記2つの分布の混合分布P(X:θ)に従うとする。
Figure 0005821648
ただし、(5)式のようである。
Figure 0005821648
このとき、確率変数Xに対して、その文字間隔の位置が非空白文字位置である尤度をq(X)、空白文字位置である尤度をq(X)とすると、
Figure 0005821648
となる。この2つの値q(X)とq(X)が定まれば、
Figure 0005821648
等とすればよいことになる。
等号の場合の判定方法は、適切に定めればよい。空白文字位置と判定する場合に等号が入っていてもよい。また、q(X)とq(X)の分母P(X:θ)は同じであるため、分子同士のみを比較してもよい。
この考え方を図10の例で示す。本実施の形態では、図10の例に示すように、空白文字位置の分布((9)式)と非空白文字位置の分布((8)式)が混合されて、文字間隔の分布を形成するモデルを採っている。
Figure 0005821648
Figure 0005821648
この分布において、q(X)=q(X)となるように、閾値Thを設定する。この閾値Thよりも文字間隔が大きければ、空白文字位置である可能性が高い。Thよりも文字間隔が小さければ非空白文字位置である可能性が高いと判断可能である。
以上のように、文字間隔を2つの分布の混合分布と仮定し、その混合分布を示すパラメタを決定することによって、文字間隔が空白文字位置か、非空白文字位置かを判定する。
本実施の形態では、受け付けた文字間隔の統計量を用いて空白文字位置と非空白文字位置を判定する。このため、予め定める閾値や係数が無く、受け付けた文字間隔のデータに即した判定を行うことになる。また、ヒストグラムを用いていないことになる。
(X)とq(X)を定めるためには、分布を示すパラメタθが定まっていればよい。パラメタθの決定方法について述べる。
このようなパラメタの決定方法としてEMアルゴリズムと呼ばれる方法がある。本実施の形態ではこのアルゴリズムを用いる。本アルゴリズムでは反復的にパラメタを推定する。
まず、t番目の反復時の値を次の(10)式のように定義する。
Figure 0005821648
次に、初期パラメタθ(0)を決定し、次の(11)式を用いて反復的にパラメタを推定する。
Figure 0005821648
以上は、一般の分布に関する式を示した。さらに、下記では、分布をガウス分布とする場合を示す。分布P(X;θ)を平均μ、標準偏差σのガウス分布とする。同様に、分布P(X;θ)を平均μ、標準偏差σのガウス分布とする。この場合の漸化式は(12)式となる。
Figure 0005821648
前記漸化式((12)式)を用いて、ガウス分布の場合のパラメタθ={ω,ω,μ,σ,μ,σ}を決定することができる。
判別時には、各文字間隔xについて、下記の(13)式のように判定すればよい。
Figure 0005821648
次に、本実施の形態について、具体的に説明する。
本実施の形態(具体的には、初期値設定モジュール110、パラメタ修正モジュール120、空白判別モジュール140)は、文字と文字の間の距離である文字間隔を受け付ける。例えば、図3の例に示す文字間隔データテーブル300を受け付ける。図3は、文字間隔データテーブル300のデータ構造例を示す説明図である。文字間隔データテーブル300は、n欄305、x欄310、x欄320、x欄390等を有している。n欄305は、文字間隔のデータの個数を記憶している。その個数分だけx欄310、・・・、x欄390がある。x欄310等は、順に文字間隔のデータを記憶している。文字間隔のデータは、ドット数、mm、インチ等であってもよい。
また、例えば、文字認識が行われて、文字の外接矩形位置と、文字コードを受け付けてもよい。そして、文字の外接矩形位置を用いて、文字と文字の間隔を取得してもよい。
例えば、図4の例では、
AとBの間の空白の画素数をxとして取得する。
BとCの間の空白の画素数をxとして取得する。
CとDの間の空白の画素数をxとして取得する。
として、文字間隔データX={x,x,x}が取得できる。
この文字間隔データXを用いて、パラメタ修正モジュール120が初期値設定を行う。
初期値設定モジュール110は、パラメタ修正モジュール120と接続されている。パラメタ修正モジュール120は、受け付けられた文字間隔を2以上の集合(以下、クラスともいう。例えば、空白文字位置のクラスと非空白文字位置のクラス)に分割するための閾値を定めるための第1の変数と第2の変数の初期値を設定する。第1の変数は各集合の分布の統計量(例えば、以下に示すθ,θ等)であり、第2の変数は各集合に含まれる文字間隔の個数の割合を示す重み係数(例えば、以下に示すω,ω等)である。集合の分布としてガウス分布を採用してもよい。
より具体的には、初期値設定モジュール110では、文字間隔データXから、パラメタ初期値を設定する。設定するパラメタは、(5)式に示されている数値である。ガウス分布を前提とする場合には、θ={ω,ω,μ,σ,μ,σ}の6つの数値となる。
最終的な解が局所解に陥らないようにするためには、適切な初期値設定が望ましい。
<初期値設定方法1>
文字間隔データを2つのクラスに分割する閾値Thを設定する。
文字間隔デーxnが、Thよりも大であるとき、そのデータは空白文字位置であり、小であるとき、そのデータは非空白文字位置であるとする。このようにして、文字間隔データを2つのクラスに分割する。以下、2つのクラスを
クラス0:非空白文字位置に対応するクラス。
クラス1:空白文字位置に対応するクラス。
とする。
クラスJに属する文字間隔データの数をNとする。(14)式で、ω、ωを求める(ただしJ={0,1})。
Figure 0005821648
次に、クラスJに属するデータの平均値をμとし、クラスJに属するデータの標準偏差をσとする。
前記のようにして定めたパラメタを用いて、初期値として(15)式を設定する。
Figure 0005821648
閾値Thは、文字間隔データの最大値maxと最小値minの間の数値で適切なものを選べばよい。次に示したような数値であればよい。
・文字間隔データの平均値mean
・文字間隔データのヒストグラムの谷の値(特許文献1に記載の技術にあるような値)
・文字間隔データのメディアン値
・上位所定割合となる値
スペースコード数とその他の文字数との比を統計的に調べておき、その割合となるように、文字間隔データの閾値を定める。
・文字間隔データの最大値と最小値の平均値
・通常、空白となる文字間隔の数は空白とならない文字間隔の数よりも少ない。そのため、文字間隔全体の平均値は、おおよそ、空白とならない文字間隔の平均値に近い値となる。空白となる文字間隔は、空白とならない文字間隔よりも、大きな値である。閾値は文字間隔の最大値と文字間隔の平均値の間にある。そこで、文字間隔データ全体の平均値よりも大きな値かつ、文字間隔の最大値よりも小さな値とすることが望ましい。
Figure 0005821648
ただし、meanは、文字間隔全体の平均値、maxは文字間隔の最大値である。
(16)式では、平均値meanを用いたが、meanの代わりとなる代表値であれば、なんでもよい。例えば、中央値や最頻値等を用いてもよい。以下、meanを使う場合も同様である。
・たまたま離れたところにある文字を同じ行の文字として誤ってしまった場合、最大値は極端に大きな数値となってしまう。ところが、最小値は、文字間隔として0以下の数値はあり得ないため、比較的安定な数値である。そこで、最大値ではなく、最小値を使うこともできる。
Figure 0005821648
・さらに、(16)式と(17)式の小さいほうを用いてもよい。
・前記で、0<α<1の値とすることによって、下記のような閾値を設定できる。このような閾値を設定することによって、2つのクラス(空白、非空白)に分割する混合分布に、結果的に収束するような初期パラメタを設定することができる。
(1) 空白となる文字間隔が1個以上存在し、
(2) 空白とならない文字間隔が1個以上で
(3) かつ、空白とならない文字間隔のほうには大部分の文字間隔が存在する。
・最大値や最小値は、外れ値である場合があるため、最大値と最小値を除いた平均値を用いるとよい。
・最大値や最小値は、外れ値である場合があるため、下記を最大値や最小値として用いてもよい。(下記でNは予め定める数値)
(1) 文字間隔データの大きなほうからN個を除いた後の最大の値を最大値として用いる。
(2) 文字間隔データの大きなほうからN個を除いた後の最小の値を最小値として用いる。
(3) 文字間隔データが予め定められた値より大である又は以上である文字間隔を除いた後の最大の値を最大値として用いる。
(4) 文字間隔データが予め定められた値より小である又は以下である文字間隔を除いた後の最小の値を最小値として用いる。
・平均値を入力とする関数を用いてもよい。平均値をxとして、(18)式のように求める。
Figure 0005821648
ただし、a,bは係数。
等とすることができる。
ここで、(19)式となるように制御してもよい。
Figure 0005821648
例えば、(20)式のようにすると、前記が実現できる。
Figure 0005821648
・前記では、文字間隔データの平均値よりも大きな値かつ、最大値よりも小さな値とすることがよいとしたが、これは、平均値である必要はない。何らかの代表値であればよい。
例えば、文字間隔データの中央値でもよい。
N個の文字間隔データを小さなものから順にならべて、1から順に番号をつけたときに、番号がN/2に最も近いものを中央値とする。
中央値と最大値の間の数であればよい。
例えば、中央値と最大値の平均値。
あるいは、N個の文字間隔データを小さなものから順にならべて、1から順に番号をつけたときに、番号がα×Nに最も近い数(累積頻度値)であればよい。αは、0.5より大で1より小の値である。
<初期値設定方法2>
最初に閾値を設定する必要は必ずしもない。
直接初期値θ(0)((15)式)の値を設定してもかまわない。
パラメタ修正モジュール120は、初期値設定モジュール110、収束判定モジュール130と接続されている。パラメタ修正モジュール120は、初期値設定モジュール110によって初期値が設定された第1の変数と第2の変数と受け付けられた文字間隔に基づいて、第1の変数と第2の変数を修正する。そして、パラメタ修正モジュール120による2回目以降の処理は、前回のパラメタ修正モジュール120による処理結果である第1の変数と第2の変数と受け付けられた文字間隔に基づいて、第1の変数と第2の変数を修正する。
具体的には、パラメタ修正モジュール120は、パラメタθ(t)と、文字間隔データを用いて、パラメタをθ(t+1)に修正する。これは、(11)式あるいは、(12)式を用いればよい。
収束判定モジュール130は、パラメタ修正モジュール120、空白判別モジュール140と接続されている。収束判定モジュール130は、パラメタ修正モジュール120による処理を繰り返すように制御し、予め定められた条件に基づいて、その処理を終了させるか否かを判定する。
より具体的には、収束判定モジュール130は、反復演算を終了させるか、次の反復に進むかを判定する。
反復演算を終了させると判定した場合、空白判別モジュール140による空白判別に進む。
次の反復(パラメタ修正モジュール120による処理)に進むと判定した場合、θ(t+1)をパラメタ修正モジュール120に送る。
収束判定方法として、さまざまあるが、一例として、下記のようなものがある。適切な方法を選べばよい。
・反復回数を予め定めておいて、所定の回数だけ反復させる。
・パラメタの変化量が所定の値以下となった時点で終了する。
・クラス0とクラス1に分離される文字間隔が変化しなくなった時点で終了する。
空白判別モジュール140は、収束判定モジュール130と接続されている。以上で最終的に定められたパラメタθが決定されるため、このパラメタθを用いて、空白判別モジュール140が空白か否かを判定すればよい。空白判別モジュール140は、収束判定モジュール130によってパラメタ修正モジュール120による処理を終了させると判定した後に、パラメタ修正モジュール120による処理結果である第1の変数と第2の変数によって定まる閾値に基づいて、受け付けられた文字間隔が空白文字に対応するか否かを判定する。
また、空白判別モジュール140は、各文字間隔毎に、その文字間隔が空白文字に対応する確率である第1の確率と、その文字間隔が空白文字に対応しない確率である第2の確率を算出し、第1の確率と第2の確率とを比較することによって、その文字間隔が空白文字に対応するか否かを判定するようにしてもよい。第1の確率と第2の確率の高いほうを採用することによって、文字間隔が空白文字に対応するか否かを判定する。つまり、第1の確率が第2の確率よりも高ければ、その文字間隔は空白文字に対応すると判定し、第2の確率が第1の確率よりも高ければ、その文字間隔は空白文字に対応しないと判定する。
また、空白判別モジュール140は、文字間隔が空白文字に対応する確率と、対応しない確率が同じとなる文字間隔値を算出し、その算出した文字間隔値を閾値として、文字間隔が空白文字に対応するか否かを判定するようにしてもよい。例えば、閾値よりも値が大であれば、空白文字コードを付与し、そうで無ければ、空白文字コードを付与しないと判定する。また、文字間隔値の発生頻度が0となる値を閾値とするようにしてもよい。
より具体的には、判定アルゴリズムとして、(7)式を用いればよい。
すなわち、各文字間隔x毎に、(7)式を用いて、クラス0(非空白文字位置)か、クラス1(空白文字位置)かを判定すればよい。
出力である判別結果は、文字間隔のインデクスi毎に、クラス0(非空白文字位置)か、クラス1(空白文字位置)かを示す情報が付与されたものとなる。
<空白判別の別の形態>
前記では、x毎に、(7)式を適用した。(7)式を適用するには、q(x)の評価を行わなければならない。この関数q()は、ガウス分布の場合は指数関数であり、演算量が必要となる。
そこで、本形態では、まず閾値Tを設定し、
Figure 0005821648
とする。閾値Tは、
Figure 0005821648
を満たす値として、求めればよい。これはTに関する方程式であり、ニュートン法等の数値演算手法を用いて、解くことが可能である。このようにすることによって、演算量の必要なq(x)の評価回数を削減することが可能となる。
<前記に関する別の形態>
出現頻度が0となる値であって、(22)式を満たすTに最も近い値を、閾値とする。この閾値を設定することによって、空白である場合と、非空白である場合とを分離する。
本形態を採らない場合、例えば1異なるだけで空白と非空白を分離することとなる。本形態を採ることで、空白となる文字間隔と、非空白となる文字間隔を2以上離れる値に閾値を設定することが可能となる。
<さらに別の形態>
あるいは、候補となる文字間隔の数値の範囲が狭い場合には、全ての文字間隔の数値に対してq(x)の評価をしてもよい。
例えば、文字間隔の数値として、
5,10,13
の3種類しか存在しない場合、この3種類に対して、(7)式の評価を行えばよい。
<その他の例>
前記例では、2つの分布の混合分布として、空白か否かを推定していた。
ところが、分布の混合数は2つには限らない。
例えば、単語間の空白量や文字間空白量が行によって異なる場合がある。複数行の空白コードを一度に決定しようとする場合、複数種類の単語間空白と、複数種類の文字間空白を判別するとよい。
このような場合、2より大の分布の混合分布とするとよい。
図2は、本実施の形態による処理例を示すフローチャートである。
ステップS202では、初期値設定モジュール110、パラメタ修正モジュール120、空白判別モジュール140が、文字間隔データを受け付ける。
ステップS204では、パラメタ修正モジュール120が、パラメタを修正する。
ステップS206では、収束判定モジュール130が、収束したか否かを判断し、収束した場合はステップS208へ進み、それ以外の場合はステップS204へ戻る。
ステップS208では、空白判別モジュール140が、空白文字位置か否かの判別を行う。
ステップS210では、空白判別モジュール140が、判別結果を出力する。
図11を参照して、本実施の形態の情報処理装置のハードウェア構成例について説明する。図11に示す構成は、例えばパーソナルコンピュータ(PC)などによって構成されるものであり、スキャナ等のデータ読み取り部1117と、プリンタなどのデータ出力部1118を備えたハードウェア構成例を示している。
CPU(Central Processing Unit)1101は、前述の実施の形態において説明した各種のモジュール、すなわち、初期値設定モジュール110、パラメタ修正モジュール120、収束判定モジュール130、空白判別モジュール140等の各モジュールの実行シーケンスを記述したコンピュータ・プログラムにしたがった処理を実行する制御部である。
ROM(Read Only Memory)1102は、CPU1101が使用するプログラムや演算パラメタ等を格納する。RAM(Random Access Memory)1103は、CPU1101の実行において使用するプログラムや、その実行において適宜変化するパラメタ等を格納する。これらはCPUバスなどから構成されるホストバス1104により相互に接続されている。
ホストバス1104は、ブリッジ1105を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス1106に接続されている。
キーボード1108、マウス等のポインティングデバイス1109は、操作者により操作される入力デバイスである。ディスプレイ1110は、液晶表示装置又はCRT(Cathode Ray Tube)などがあり、各種情報をテキストやイメージ情報として表示する。
HDD(Hard Disk Drive)1111は、ハードディスクを内蔵し、ハードディスクを駆動し、CPU1101によって実行するプログラムや情報を記録又は再生させる。ハードディスクには、文字間隔のデータ、空白判別モジュール140の結果データなどが格納される。さらに、その他の各種のデータ処理プログラム等、各種コンピュータ・プログラムが格納される。
ドライブ1112は、装着されている磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体1113に記録されているデータ又はプログラムを読み出して、そのデータ又はプログラムを、インタフェース1107、外部バス1106、ブリッジ1105、及びホストバス1104を介して接続されているRAM1103に供給する。リムーバブル記録媒体1113も、ハードディスクと同様のデータ記録領域として利用可能である。
接続ポート1114は、外部接続機器1115を接続するポートであり、USB、IEEE1394等の接続部を持つ。接続ポート1114は、インタフェース1107、及び外部バス1106、ブリッジ1105、ホストバス1104等を介してCPU1101等に接続されている。通信部1116は、通信回線に接続され、外部とのデータ通信処理を実行する。データ読み取り部1117は、例えばスキャナであり、ドキュメントの読み取り処理を実行する。データ出力部1118は、例えばプリンタであり、ドキュメントデータの出力処理を実行する。
なお、図11に示す情報処理装置のハードウェア構成は、1つの構成例を示すものであり、本実施の形態は、図11に示す構成に限らず、本実施の形態において説明したモジュールを実行可能な構成であればよい。例えば、一部のモジュールを専用のハードウェア(例えば特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等)で構成してもよく、一部のモジュールは外部のシステム内にあり通信回線で接続しているような形態でもよく、さらに図11に示すシステムが複数互いに通信回線によって接続されていて互いに協調動作するようにしてもよい。また、複写機、ファックス、スキャナ、プリンタ、複合機(スキャナ、プリンタ、複写機、ファックス等のいずれか2つ以上の機能を有している画像処理装置)などに組み込まれていてもよい。
なお、数式を用いて説明したが、数式には、その数式と同等のものが含まれる。同等のものとは、その数式そのものの他に、最終的な結果に影響を及ぼさない程度の数式の変形、又は数式をアルゴリズミックな解法で解くこと等が含まれる。
また、前述の実施の形態の説明において、予め定められた値との比較において、「以上」、「以下」、「より大きい」、「より小さい(未満)」としたものは、その組み合わせに矛盾が生じない限り、それぞれ「より大きい」、「より小さい(未満)」、「以上」、「以下」としてもよい。
なお、説明したプログラムについては、記録媒体に格納して提供してもよく、また、そのプログラムを通信手段によって提供してもよい。その場合、例えば、前記説明したプログラムについて、「プログラムを記録したコンピュータ読み取り可能な記録媒体」の発明として捉えてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray Disc(登録商標))、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
110…初期値設定モジュール
120…パラメタ修正モジュール
130…収束判定モジュール
140…空白判別モジュール

Claims (8)

  1. 文字と文字の間の距離である文字間隔を受け付ける受付手段と、
    前記受付手段によって受け付けられた文字間隔を2以上の集合に分割するための閾値を定めるための第1の変数と第2の変数であって、該第1の変数は各集合の分布の統計量であり、該第2の変数は各集合に含まれる文字間隔の個数の割合を示す重み係数であり、該第1の変数と該第2の変数の初期値を設定する初期値設定手段と、
    前記初期値設定手段によって初期値が設定された第1の変数と第2の変数と前記受付手段によって受け付けられた文字間隔に基づいて、前記第1の変数と前記第2の変数を修正する修正手段と、
    前記修正手段による処理を繰り返すように制御し、予め定められた条件に基づいて、該処理を終了させるか否かを判定する第1の判定手段と、
    前記第1の判定手段によって前記修正手段による処理を終了させると判定した後に、該修正手段による処理結果である第1の変数と第2の変数によって定まる前記閾値に基づいて、前記受付手段によって受け付けられた文字間隔が空白文字に対応するか否かを判定する第2の判定手段
    を具備し、
    前記修正手段による2回目以降の処理は、前回の修正手段による処理結果である第1の変数と第2の変数と前記受付手段によって受け付けられた文字間隔に基づいて、該第1の変数と該第2の変数を修正する
    ことを特徴とする情報処理装置。
  2. 前記集合の分布はガウス分布である
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記初期値設定手段は、前記閾値が、
    文字間隔の代表値と最大値の間の値となるように、
    文字間隔の代表値と文字間隔が大きなほうから予め定められた個数を除いた後の最大値の間の値となるように、
    又は、文字間隔の代表値と文字間隔が予め定められた値より大である又は以上である文字間隔を除いた後の最大値の間の値となるように、
    前記第1の変数と前記第2の変数の初期値を設定する
    ことを特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記初期値設定手段は、前記閾値が、
    文字間隔の代表値と最小値の間の値となるように、
    文字間隔の代表値と文字間隔が小さなほうから予め定められた個数を除いた後の最小値の間の値となるように、
    又は、文字間隔の代表値と文字間隔が予め定められた値より小である又は以下である文字間隔を除いた後の最小値の間の値となるように、
    前記第1の変数と前記第2の変数の初期値を設定する
    ことを特徴とする請求項1又は2に記載の情報処理装置。
  5. 前記第2の判定手段は、
    各文字間隔毎に、該文字間隔が空白文字に対応する確率である第1の確率と、該文字間隔が空白文字に対応しない確率である第2の確率を算出し、該第1の確率と該第2の確率とを比較することによって、該文字間隔が空白文字に対応するか否かを判定する
    ことを特徴とする請求項1から4のいずれか一項に記載の情報処理装置。
  6. 前記第2の判定手段は、
    文字間隔が空白文字に対応する確率と、対応しない確率が同じとなる文字間隔値を算出し、該算出した文字間隔値を閾値として、文字間隔が空白文字に対応するか否かを判定する
    ことを特徴とする請求項1から4のいずれか一項に記載の情報処理装置。
  7. 文字間隔値の発生頻度が0となる値を閾値とする
    ことを特徴とする請求項6記載の情報処理装置。
  8. コンピュータを、
    文字と文字の間の距離である文字間隔を受け付ける受付手段と、
    前記受付手段によって受け付けられた文字間隔を2以上の集合に分割するための閾値を定めるための第1の変数と第2の変数であって、該第1の変数は各集合の分布の統計量であり、該第2の変数は各集合に含まれる文字間隔の個数の割合を示す重み係数であり、該第1の変数と該第2の変数の初期値を設定する初期値設定手段と、
    前記初期値設定手段によって初期値が設定された第1の変数と第2の変数と前記受付手段によって受け付けられた文字間隔に基づいて、前記第1の変数と前記第2の変数を修正する修正手段と、
    前記修正手段による処理を繰り返すように制御し、予め定められた条件に基づいて、該処理を終了させるか否かを判定する第1の判定手段と、
    前記第1の判定手段によって前記修正手段による処理を終了させると判定した後に、該修正手段による処理結果である第1の変数と第2の変数によって定まる前記閾値に基づいて、前記受付手段によって受け付けられた文字間隔が空白文字に対応するか否かを判定する第2の判定手段
    として機能させ、
    前記修正手段による2回目以降の処理は、前回の修正手段による処理結果である第1の変数と第2の変数と前記受付手段によって受け付けられた文字間隔に基づいて、該第1の変数と該第2の変数を修正する
    ことを特徴とする情報処理プログラム。
JP2012007940A 2012-01-18 2012-01-18 情報処理装置及び情報処理プログラム Active JP5821648B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012007940A JP5821648B2 (ja) 2012-01-18 2012-01-18 情報処理装置及び情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012007940A JP5821648B2 (ja) 2012-01-18 2012-01-18 情報処理装置及び情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2013149014A JP2013149014A (ja) 2013-08-01
JP5821648B2 true JP5821648B2 (ja) 2015-11-24

Family

ID=49046473

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012007940A Active JP5821648B2 (ja) 2012-01-18 2012-01-18 情報処理装置及び情報処理プログラム

Country Status (1)

Country Link
JP (1) JP5821648B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6528927B2 (ja) * 2014-08-20 2019-06-12 富士ゼロックス株式会社 文書処理装置及びプログラム

Also Published As

Publication number Publication date
JP2013149014A (ja) 2013-08-01

Similar Documents

Publication Publication Date Title
JP6119952B2 (ja) 画像処理装置及び画像処理プログラム
US20150213332A1 (en) Image processing apparatus, non-transitory computer readable medium, and image processing method
US8787676B2 (en) Image processing apparatus, computer readable medium storing program, and image processing method
JPH10307889A (ja) 文字認識方法、装置及び文字認識プログラムを記録した記録媒体
JP5821648B2 (ja) 情報処理装置及び情報処理プログラム
US8391606B2 (en) Image processing device, image processing method, and computer readable medium
JP5549261B2 (ja) 画像処理装置及び画像処理プログラム
JP6260350B2 (ja) 画像処理装置及び画像処理プログラム
JP5251489B2 (ja) 画像処理装置及び画像処理プログラム
JP5489894B2 (ja) 画像処理装置及び画像処理プログラム
JP6003375B2 (ja) 画像処理装置及び画像処理プログラム
JP5640645B2 (ja) 画像処理装置及び画像処理プログラム
JP5724341B2 (ja) 画像処理装置及び画像処理プログラム
US20150043832A1 (en) Information processing apparatus, information processing method, and computer readable medium
JP5935324B2 (ja) 情報処理装置及び情報処理プログラム
JP5949248B2 (ja) 情報処理装置及び情報処理プログラム
JP6409423B2 (ja) 画像処理装置及び画像処理プログラム
JP6281309B2 (ja) 画像処理装置及び画像処理プログラム
JP2016053797A (ja) 画像処理装置及び画像処理プログラム
JP6003677B2 (ja) 画像処理装置及び画像処理プログラム
JP5928714B2 (ja) 情報処理装置及び情報処理プログラム
JP6241311B2 (ja) 画像処理装置及び画像処理プログラム
JP5039449B2 (ja) 画像処理装置及び画像処理プログラム
JP4995507B2 (ja) 画像処理システム、文字認識システムおよび画像処理プログラム
US8923635B2 (en) Image processing apparatus and image processing program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141211

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150825

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150908

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150921

R150 Certificate of patent or registration of utility model

Ref document number: 5821648

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350