JP5821648B2 - 情報処理装置及び情報処理プログラム - Google Patents
情報処理装置及び情報処理プログラム Download PDFInfo
- Publication number
- JP5821648B2 JP5821648B2 JP2012007940A JP2012007940A JP5821648B2 JP 5821648 B2 JP5821648 B2 JP 5821648B2 JP 2012007940 A JP2012007940 A JP 2012007940A JP 2012007940 A JP2012007940 A JP 2012007940A JP 5821648 B2 JP5821648 B2 JP 5821648B2
- Authority
- JP
- Japan
- Prior art keywords
- character
- variable
- value
- blank
- character spacing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Character Input (AREA)
Description
これに関連する技術として、例えば、特許文献1には、英文書を認識する際に前後の文字の組み合わせによって異なる文字間スペースを補正することにより、単語間スペースを高精度に検出することを目的とし、入力された英文書画像から個々の文字を切り出して文字間のスペース幅を算出するとともに、切り出された個々の文字を認識し、さらに、各文字間スペースの前後に位置する文字の組み合わせに応じた補正係数を用いて、文字間スペース幅を補正し、次に、得られた各スペース幅の頻度分布をクラス幅毎のヒストグラムとして表し、ヒストグラム中に現れた谷から文字間と単語間とのスペース幅を区分するしきい値を決定することにより、単語間スペースを検出して空白記号を挿入することが開示されている。
請求項1の発明は、文字と文字の間の距離である文字間隔を受け付ける受付手段と、前記受付手段によって受け付けられた文字間隔を2以上の集合に分割するための閾値を定めるための第1の変数と第2の変数であって、該第1の変数は各集合の分布の統計量であり、該第2の変数は各集合に含まれる文字間隔の個数の割合を示す重み係数であり、該第1の変数と該第2の変数の初期値を設定する初期値設定手段と、前記初期値設定手段によって初期値が設定された第1の変数と第2の変数と前記受付手段によって受け付けられた文字間隔に基づいて、前記第1の変数と前記第2の変数を修正する修正手段と、前記修正手段による処理を繰り返すように制御し、予め定められた条件に基づいて、該処理を終了させるか否かを判定する第1の判定手段と、前記第1の判定手段によって前記修正手段による処理を終了させると判定した後に、該修正手段による処理結果である第1の変数と第2の変数によって定まる前記閾値に基づいて、前記受付手段によって受け付けられた文字間隔が空白文字に対応するか否かを判定する第2の判定手段を具備し、前記修正手段による2回目以降の処理は、前回の修正手段による処理結果である第1の変数と第2の変数と前記受付手段によって受け付けられた文字間隔に基づいて、該第1の変数と該第2の変数を修正することを特徴とする情報処理装置である。
文字認識を行う場合、文字の外接矩形位置と文字コードが出力される。
図4に示されるように、文書400内のABCDの4文字の認識が行われるとする。なお、この場合、文書400は画像とする。このように、文字間隔が異なる場合、文字認識結果としての出力テキスト列には、ABとCDの間にスペースコードを挿入したほうがよい。
又は、PDF(Portable Document Format)等のように文字コードと文字位置を指定して、文書を表示させるようなフォーマットが存在する。このような電子文書フォーマットのビューワでは、図4のABCDの部分をコピー&ペーストすることによって、テキスト列をコピーすることが可能となる。なお、この場合、文書400はPDFの電子文書とする。電子文書のビューワとして、もともとスペースコードが含まれていない場合であっても、文字位置の間隔が広い場合には、テキスト列としてスペースコードを挿入する機能が望ましい。すなわち、出力として、「ABCD」ではなくて、「AB_CD」としたい(左記でアンダースコアはスペース文字、あるいは、空白文字コードを示す)。
以下、スペース文字を挿入する場所を「空白文字位置」とする。また、スペース文字を挿入しない場所を「非空白文字位置」とする。本実施の形態は、文字と文字の間が、「空白文字位置」か、「非空白文字位置」かを判定するためのものである。
特許文献3に記載の技術では、予め定められた閾値を用いているため、全体の文字間隔が想定よりも広い場合や、狭い場合に対応困難である。例えば、図5のABCDの行では、ABとCDの間が空白文字位置であると判定するのがよい。しかしながら、図6のEFGHIの行のように、行全体として文字間隔が広い場合、予め定められた閾値を用いると、EとF、FとG、GとHの間が空白文字位置となってしまう。その逆に、スペース文字を挿入すべきであっても、空白文字位置と判定されない可能性もある。
特許文献2に記載の技術では、文字間隔の平均値を用いるため、特許文献3のようなこととはならない。文字間隔が全体的に大きな場合には、閾値も大きくなるためである。しかしながら、閾値を決定するための一次式が固定の係数である。空白文字位置と、非空白文字位置との文字間隔の大きさの差は、文書によって、あるいは、同一文書でも行によって異なるため、閾値の大きさは不適切となってしまう。例えば、閾値の大きさが、文字間隔の平均値のa倍+bと定めるとする。空白文字位置の文字間隔が文字間隔の平均値のa倍+b未満となる可能性は存在する。予め係数を定めておくことは、そのような場合に対応できない。
特許文献1に記載の技術では、文字間隔ヒストグラムの谷部分を閾値とする。しかしながら、常にヒストグラムに谷が存在するとは限らない。特に、文字数が少ないときに、空白の検出を失敗することになる。
図7の例に示す文字間隔・頻度分布700のような頻度分布(ヒストグラム)を考える。文字数が少ない場合は、ヒストグラムに明確なピークが存在しない。また、谷、あるいは、頻度0になる位置が多く出現する。そのため、閾値を設定することが困難である。ヒストグラムを用いる方法には問題がある。
前述の場合、文字間隔が1毎にヒストグラムを設定したために問題が発生しており、ヒストグラム計測の幅を適切に決定すれば、山や谷が発生する場合もある。しかしながら、そのような幅を自動的かつ適切に設定することは一般に難しい。例えば、文字間隔2毎に頻度を計測した場合が、図8の例に示す文字間隔・頻度分布800である。この場合も、明確な谷は現れない。
文字間隔3毎に頻度を計測した場合が、図9の例に示す文字間隔・頻度分布900である。この場合も明確な谷が現れない。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、それらのモジュールとして機能させるためのコンピュータ・プログラム(コンピュータにそれぞれの手順を実行させるためのプログラム、コンピュータをそれぞれの手段として機能させるためのプログラム、コンピュータにそれぞれの機能を実現させるためのプログラム)、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能に一対一に対応していてもよいが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。「予め定められた」とは、対象としている処理の前に定まっていることをいい、本実施の形態による処理が始まる前はもちろんのこと、本実施の形態による処理が始まった後であっても、対象としている処理の前であれば、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じて定まることの意を含めて用いる。また、「Aである場合、Bをする」という意味を有する記載は、「Aであるか否かを判断し、Aであると判断した場合はBをする」の意味で用いる。ただし、Aであるか否かの判断が不要である場合を除く。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。もちろんのことながら、「システム」には、人為的な取り決めである社会的な「仕組み」(社会システム)にすぎないものは含まない。
また、各モジュールによる処理毎に又はモジュール内で複数の処理を行う場合はその処理毎に、対象となる情報を記憶装置から読み込み、その処理を行った後に、処理結果を記憶装置に書き出すものである。したがって、処理前の記憶装置からの読み込み、処理後の記憶装置への書き出しについては、説明を省略する場合がある。なお、ここでの記憶装置としては、ハードディスク、RAM(Random Access Memory)、外部記憶媒体、通信回線を介した記憶装置、CPU(Central Processing Unit)内のレジスタ等を含んでいてもよい。
本実施の形態は、受け付けた文字間隔の統計的な性質に応じて、また、入力文字数が少ない場合であっても、空白文字位置を判定するものである。また、本実施の形態は、文字列中の空白文字(スペース文字)を判別あるいは検出するものであり、例えば、文字コードと文字位置から、文字列を生成することに利用される。特に、文字認識を行う場合に、出力文字列中に空白文字コードを挿入する場合等に用いるようにしてもよい。
まず、文字間隔の測定値をxi(i=1,2,…,n)とする。Xを確率変数とする。Xは式(1)である。
同様に、文字間隔が空白文字位置であるとき、その文字間隔Xは、(3)式の分布に従うとする。
文字間隔Xは、前記2つの分布の混合分布P(X:θ)に従うとする。
等号の場合の判定方法は、適切に定めればよい。空白文字位置と判定する場合に等号が入っていてもよい。また、q0(X)とq1(X)の分母P(X:θ)は同じであるため、分子同士のみを比較してもよい。
以上のように、文字間隔を2つの分布の混合分布と仮定し、その混合分布を示すパラメタを決定することによって、文字間隔が空白文字位置か、非空白文字位置かを判定する。
q0(X)とq1(X)を定めるためには、分布を示すパラメタθが定まっていればよい。パラメタθの決定方法について述べる。
このようなパラメタの決定方法としてEMアルゴリズムと呼ばれる方法がある。本実施の形態ではこのアルゴリズムを用いる。本アルゴリズムでは反復的にパラメタを推定する。
判別時には、各文字間隔xiについて、下記の(13)式のように判定すればよい。
本実施の形態(具体的には、初期値設定モジュール110、パラメタ修正モジュール120、空白判別モジュール140)は、文字と文字の間の距離である文字間隔を受け付ける。例えば、図3の例に示す文字間隔データテーブル300を受け付ける。図3は、文字間隔データテーブル300のデータ構造例を示す説明図である。文字間隔データテーブル300は、n欄305、x1欄310、x2欄320、xn欄390等を有している。n欄305は、文字間隔のデータの個数を記憶している。その個数分だけx1欄310、・・・、xn欄390がある。x1欄310等は、順に文字間隔のデータを記憶している。文字間隔のデータは、ドット数、mm、インチ等であってもよい。
例えば、図4の例では、
AとBの間の空白の画素数をx1として取得する。
BとCの間の空白の画素数をx2として取得する。
CとDの間の空白の画素数をx3として取得する。
として、文字間隔データX={x1,x2,x3}が取得できる。
この文字間隔データXを用いて、パラメタ修正モジュール120が初期値設定を行う。
より具体的には、初期値設定モジュール110では、文字間隔データXから、パラメタ初期値を設定する。設定するパラメタは、(5)式に示されている数値である。ガウス分布を前提とする場合には、θ={ω0,ω1,μ0,σ0,μ1,σ1}の6つの数値となる。
最終的な解が局所解に陥らないようにするためには、適切な初期値設定が望ましい。
文字間隔データを2つのクラスに分割する閾値Thを設定する。
文字間隔デーxnが、Thよりも大であるとき、そのデータは空白文字位置であり、小であるとき、そのデータは非空白文字位置であるとする。このようにして、文字間隔データを2つのクラスに分割する。以下、2つのクラスを
クラス0:非空白文字位置に対応するクラス。
クラス1:空白文字位置に対応するクラス。
とする。
クラスJに属する文字間隔データの数をNJとする。(14)式で、ω0、ω1を求める(ただしJ={0,1})。
前記のようにして定めたパラメタを用いて、初期値として(15)式を設定する。
・文字間隔データの平均値mean
・文字間隔データのヒストグラムの谷の値(特許文献1に記載の技術にあるような値)
・文字間隔データのメディアン値
・上位所定割合となる値
スペースコード数とその他の文字数との比を統計的に調べておき、その割合となるように、文字間隔データの閾値を定める。
・文字間隔データの最大値と最小値の平均値
(16)式では、平均値meanを用いたが、meanの代わりとなる代表値であれば、なんでもよい。例えば、中央値や最頻値等を用いてもよい。以下、meanを使う場合も同様である。
・前記で、0<α<1の値とすることによって、下記のような閾値を設定できる。このような閾値を設定することによって、2つのクラス(空白、非空白)に分割する混合分布に、結果的に収束するような初期パラメタを設定することができる。
(1) 空白となる文字間隔が1個以上存在し、
(2) 空白とならない文字間隔が1個以上で
(3) かつ、空白とならない文字間隔のほうには大部分の文字間隔が存在する。
・最大値や最小値は、外れ値である場合があるため、最大値と最小値を除いた平均値を用いるとよい。
・最大値や最小値は、外れ値である場合があるため、下記を最大値や最小値として用いてもよい。(下記でNは予め定める数値)
(1) 文字間隔データの大きなほうからN個を除いた後の最大の値を最大値として用いる。
(2) 文字間隔データの大きなほうからN個を除いた後の最小の値を最小値として用いる。
(3) 文字間隔データが予め定められた値より大である又は以上である文字間隔を除いた後の最大の値を最大値として用いる。
(4) 文字間隔データが予め定められた値より小である又は以下である文字間隔を除いた後の最小の値を最小値として用いる。
・平均値を入力とする関数を用いてもよい。平均値をxとして、(18)式のように求める。
等とすることができる。
ここで、(19)式となるように制御してもよい。
例えば、文字間隔データの中央値でもよい。
N個の文字間隔データを小さなものから順にならべて、1から順に番号をつけたときに、番号がN/2に最も近いものを中央値とする。
中央値と最大値の間の数であればよい。
例えば、中央値と最大値の平均値。
あるいは、N個の文字間隔データを小さなものから順にならべて、1から順に番号をつけたときに、番号がα×Nに最も近い数(累積頻度値)であればよい。αは、0.5より大で1より小の値である。
最初に閾値を設定する必要は必ずしもない。
直接初期値θ(0)((15)式)の値を設定してもかまわない。
具体的には、パラメタ修正モジュール120は、パラメタθ(t)と、文字間隔データを用いて、パラメタをθ(t+1)に修正する。これは、(11)式あるいは、(12)式を用いればよい。
より具体的には、収束判定モジュール130は、反復演算を終了させるか、次の反復に進むかを判定する。
反復演算を終了させると判定した場合、空白判別モジュール140による空白判別に進む。
次の反復(パラメタ修正モジュール120による処理)に進むと判定した場合、θ(t+1)をパラメタ修正モジュール120に送る。
収束判定方法として、さまざまあるが、一例として、下記のようなものがある。適切な方法を選べばよい。
・反復回数を予め定めておいて、所定の回数だけ反復させる。
・パラメタの変化量が所定の値以下となった時点で終了する。
・クラス0とクラス1に分離される文字間隔が変化しなくなった時点で終了する。
また、空白判別モジュール140は、各文字間隔毎に、その文字間隔が空白文字に対応する確率である第1の確率と、その文字間隔が空白文字に対応しない確率である第2の確率を算出し、第1の確率と第2の確率とを比較することによって、その文字間隔が空白文字に対応するか否かを判定するようにしてもよい。第1の確率と第2の確率の高いほうを採用することによって、文字間隔が空白文字に対応するか否かを判定する。つまり、第1の確率が第2の確率よりも高ければ、その文字間隔は空白文字に対応すると判定し、第2の確率が第1の確率よりも高ければ、その文字間隔は空白文字に対応しないと判定する。
また、空白判別モジュール140は、文字間隔が空白文字に対応する確率と、対応しない確率が同じとなる文字間隔値を算出し、その算出した文字間隔値を閾値として、文字間隔が空白文字に対応するか否かを判定するようにしてもよい。例えば、閾値よりも値が大であれば、空白文字コードを付与し、そうで無ければ、空白文字コードを付与しないと判定する。また、文字間隔値の発生頻度が0となる値を閾値とするようにしてもよい。
すなわち、各文字間隔xi毎に、(7)式を用いて、クラス0(非空白文字位置)か、クラス1(空白文字位置)かを判定すればよい。
出力である判別結果は、文字間隔のインデクスi毎に、クラス0(非空白文字位置)か、クラス1(空白文字位置)かを示す情報が付与されたものとなる。
前記では、xi毎に、(7)式を適用した。(7)式を適用するには、qJ(xi)の評価を行わなければならない。この関数q()は、ガウス分布の場合は指数関数であり、演算量が必要となる。
そこで、本形態では、まず閾値Tを設定し、
出現頻度が0となる値であって、(22)式を満たすTに最も近い値を、閾値とする。この閾値を設定することによって、空白である場合と、非空白である場合とを分離する。
本形態を採らない場合、例えば1異なるだけで空白と非空白を分離することとなる。本形態を採ることで、空白となる文字間隔と、非空白となる文字間隔を2以上離れる値に閾値を設定することが可能となる。
あるいは、候補となる文字間隔の数値の範囲が狭い場合には、全ての文字間隔の数値に対してqJ(xi)の評価をしてもよい。
例えば、文字間隔の数値として、
5,10,13
の3種類しか存在しない場合、この3種類に対して、(7)式の評価を行えばよい。
前記例では、2つの分布の混合分布として、空白か否かを推定していた。
ところが、分布の混合数は2つには限らない。
例えば、単語間の空白量や文字間空白量が行によって異なる場合がある。複数行の空白コードを一度に決定しようとする場合、複数種類の単語間空白と、複数種類の文字間空白を判別するとよい。
このような場合、2より大の分布の混合分布とするとよい。
ステップS202では、初期値設定モジュール110、パラメタ修正モジュール120、空白判別モジュール140が、文字間隔データを受け付ける。
ステップS204では、パラメタ修正モジュール120が、パラメタを修正する。
ステップS206では、収束判定モジュール130が、収束したか否かを判断し、収束した場合はステップS208へ進み、それ以外の場合はステップS204へ戻る。
ステップS208では、空白判別モジュール140が、空白文字位置か否かの判別を行う。
ステップS210では、空白判別モジュール140が、判別結果を出力する。
また、前述の実施の形態の説明において、予め定められた値との比較において、「以上」、「以下」、「より大きい」、「より小さい(未満)」としたものは、その組み合わせに矛盾が生じない限り、それぞれ「より大きい」、「より小さい(未満)」、「以上」、「以下」としてもよい。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、ブルーレイ・ディスク(Blu−ray Disc(登録商標))、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM(登録商標))、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)、SD(Secure Digital)メモリーカード等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
120…パラメタ修正モジュール
130…収束判定モジュール
140…空白判別モジュール
Claims (8)
- 文字と文字の間の距離である文字間隔を受け付ける受付手段と、
前記受付手段によって受け付けられた文字間隔を2以上の集合に分割するための閾値を定めるための第1の変数と第2の変数であって、該第1の変数は各集合の分布の統計量であり、該第2の変数は各集合に含まれる文字間隔の個数の割合を示す重み係数であり、該第1の変数と該第2の変数の初期値を設定する初期値設定手段と、
前記初期値設定手段によって初期値が設定された第1の変数と第2の変数と前記受付手段によって受け付けられた文字間隔に基づいて、前記第1の変数と前記第2の変数を修正する修正手段と、
前記修正手段による処理を繰り返すように制御し、予め定められた条件に基づいて、該処理を終了させるか否かを判定する第1の判定手段と、
前記第1の判定手段によって前記修正手段による処理を終了させると判定した後に、該修正手段による処理結果である第1の変数と第2の変数によって定まる前記閾値に基づいて、前記受付手段によって受け付けられた文字間隔が空白文字に対応するか否かを判定する第2の判定手段
を具備し、
前記修正手段による2回目以降の処理は、前回の修正手段による処理結果である第1の変数と第2の変数と前記受付手段によって受け付けられた文字間隔に基づいて、該第1の変数と該第2の変数を修正する
ことを特徴とする情報処理装置。 - 前記集合の分布はガウス分布である
ことを特徴とする請求項1に記載の情報処理装置。 - 前記初期値設定手段は、前記閾値が、
文字間隔の代表値と最大値の間の値となるように、
文字間隔の代表値と文字間隔が大きなほうから予め定められた個数を除いた後の最大値の間の値となるように、
又は、文字間隔の代表値と文字間隔が予め定められた値より大である又は以上である文字間隔を除いた後の最大値の間の値となるように、
前記第1の変数と前記第2の変数の初期値を設定する
ことを特徴とする請求項1又は2に記載の情報処理装置。 - 前記初期値設定手段は、前記閾値が、
文字間隔の代表値と最小値の間の値となるように、
文字間隔の代表値と文字間隔が小さなほうから予め定められた個数を除いた後の最小値の間の値となるように、
又は、文字間隔の代表値と文字間隔が予め定められた値より小である又は以下である文字間隔を除いた後の最小値の間の値となるように、
前記第1の変数と前記第2の変数の初期値を設定する
ことを特徴とする請求項1又は2に記載の情報処理装置。 - 前記第2の判定手段は、
各文字間隔毎に、該文字間隔が空白文字に対応する確率である第1の確率と、該文字間隔が空白文字に対応しない確率である第2の確率を算出し、該第1の確率と該第2の確率とを比較することによって、該文字間隔が空白文字に対応するか否かを判定する
ことを特徴とする請求項1から4のいずれか一項に記載の情報処理装置。 - 前記第2の判定手段は、
文字間隔が空白文字に対応する確率と、対応しない確率が同じとなる文字間隔値を算出し、該算出した文字間隔値を閾値として、文字間隔が空白文字に対応するか否かを判定する
ことを特徴とする請求項1から4のいずれか一項に記載の情報処理装置。 - 文字間隔値の発生頻度が0となる値を閾値とする
ことを特徴とする請求項6記載の情報処理装置。 - コンピュータを、
文字と文字の間の距離である文字間隔を受け付ける受付手段と、
前記受付手段によって受け付けられた文字間隔を2以上の集合に分割するための閾値を定めるための第1の変数と第2の変数であって、該第1の変数は各集合の分布の統計量であり、該第2の変数は各集合に含まれる文字間隔の個数の割合を示す重み係数であり、該第1の変数と該第2の変数の初期値を設定する初期値設定手段と、
前記初期値設定手段によって初期値が設定された第1の変数と第2の変数と前記受付手段によって受け付けられた文字間隔に基づいて、前記第1の変数と前記第2の変数を修正する修正手段と、
前記修正手段による処理を繰り返すように制御し、予め定められた条件に基づいて、該処理を終了させるか否かを判定する第1の判定手段と、
前記第1の判定手段によって前記修正手段による処理を終了させると判定した後に、該修正手段による処理結果である第1の変数と第2の変数によって定まる前記閾値に基づいて、前記受付手段によって受け付けられた文字間隔が空白文字に対応するか否かを判定する第2の判定手段
として機能させ、
前記修正手段による2回目以降の処理は、前回の修正手段による処理結果である第1の変数と第2の変数と前記受付手段によって受け付けられた文字間隔に基づいて、該第1の変数と該第2の変数を修正する
ことを特徴とする情報処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012007940A JP5821648B2 (ja) | 2012-01-18 | 2012-01-18 | 情報処理装置及び情報処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012007940A JP5821648B2 (ja) | 2012-01-18 | 2012-01-18 | 情報処理装置及び情報処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013149014A JP2013149014A (ja) | 2013-08-01 |
JP5821648B2 true JP5821648B2 (ja) | 2015-11-24 |
Family
ID=49046473
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012007940A Active JP5821648B2 (ja) | 2012-01-18 | 2012-01-18 | 情報処理装置及び情報処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5821648B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6528927B2 (ja) * | 2014-08-20 | 2019-06-12 | 富士ゼロックス株式会社 | 文書処理装置及びプログラム |
-
2012
- 2012-01-18 JP JP2012007940A patent/JP5821648B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013149014A (ja) | 2013-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6119952B2 (ja) | 画像処理装置及び画像処理プログラム | |
US20150213332A1 (en) | Image processing apparatus, non-transitory computer readable medium, and image processing method | |
US8787676B2 (en) | Image processing apparatus, computer readable medium storing program, and image processing method | |
JPH10307889A (ja) | 文字認識方法、装置及び文字認識プログラムを記録した記録媒体 | |
JP5821648B2 (ja) | 情報処理装置及び情報処理プログラム | |
US8391606B2 (en) | Image processing device, image processing method, and computer readable medium | |
JP5549261B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP6260350B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP5251489B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP5489894B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP6003375B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP5640645B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP5724341B2 (ja) | 画像処理装置及び画像処理プログラム | |
US20150043832A1 (en) | Information processing apparatus, information processing method, and computer readable medium | |
JP5935324B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP5949248B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP6409423B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP6281309B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP2016053797A (ja) | 画像処理装置及び画像処理プログラム | |
JP6003677B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP5928714B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP6241311B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP5039449B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP4995507B2 (ja) | 画像処理システム、文字認識システムおよび画像処理プログラム | |
US8923635B2 (en) | Image processing apparatus and image processing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141211 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150825 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150908 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150921 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5821648 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |