JPH10207985A - Method and device for segmenting character - Google Patents

Method and device for segmenting character

Info

Publication number
JPH10207985A
JPH10207985A JP9012875A JP1287597A JPH10207985A JP H10207985 A JPH10207985 A JP H10207985A JP 9012875 A JP9012875 A JP 9012875A JP 1287597 A JP1287597 A JP 1287597A JP H10207985 A JPH10207985 A JP H10207985A
Authority
JP
Japan
Prior art keywords
segment
candidate
character
segments
primary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP9012875A
Other languages
Japanese (ja)
Inventor
Hiroshi Sasaki
佐々木  寛
Hirohisa Goto
裕久 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP9012875A priority Critical patent/JPH10207985A/en
Publication of JPH10207985A publication Critical patent/JPH10207985A/en
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

PROBLEM TO BE SOLVED: To reduce the calculation amount for word generation processing and word collation processing and to more efficiently segment characters by controlling the number of characters constituting a word to generate the word. SOLUTION: A segment extraction part 17 extracts each primary segment being a cluster area of black bits from original picture data stored in a memory of a picture input part 13 in such state that its coordinates can be recognized. Extracted primary segments are integrated in accordance with a prescribed rule by a segment integrating part 19 to generate a secondary segment. A character recognition part 21 performs character recognition on the assumption that each of primary segments and secondary segments is one character, and a candidate character code as the result is stored. A word generation part 23 combines respective candidate characters of primary and secondary segments obtained by character recognition to generate a word. In this case, the number of characters constituting a word is controlled to generate the word. Thus, unnecessary candidate character codes and their combinations are removed from the calculation object at the time of word generation.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】この発明は、文字認識技術に
おける文字切り出し方法とその実施に好適な文字切り出
し装置に関するものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character extracting method in character recognition technology and a character extracting apparatus suitable for implementing the method.

【0002】[0002]

【従来の技術】手書き文字列は、活字文字列に比べ、文
字間隔や文字形状の変化が大きい。そのため、手書き文
字列についての画像データから文字切り出しをする際に
一定間隔ごとに文字を切り出すと、文字を精度良く切り
出せない。これは誤認識の原因になる。これを解決する
ための従来技術として、例えば特開平5−35917号
公報に開示された文字切り出し方法がある。
2. Description of the Related Art A handwritten character string has a greater change in character spacing and character shape than a printed character string. Therefore, if characters are cut out at regular intervals when extracting characters from image data of a handwritten character string, characters cannot be extracted accurately. This causes misrecognition. As a conventional technique for solving this, there is a character cutout method disclosed in, for example, Japanese Patent Application Laid-Open No. 5-35917.

【0003】この従来技術では先ず行画像から文字塊が
切り出される。ここで文字塊とは、黒ビットの塊領域で
ある。なお行画像から切り出された文字塊を、この明細
書では1次セグメントともいう。この文字塊はそれ単独
で文字パタンを構成する場合と、文字パタンの一部であ
る場合とがある。次に、この文字塊(1次セグメント)
を統合して文字パタン(2次セグメントともいう)が生
成される。次に、文字パタン(1次セグメント、2次セ
グメント)について文字認識がされる。文字パタンが他
の文字パタンとの関係において同じ文字塊を含まない場
合(文字塊の重複がない場合)、その文字パタンはその
まま切り出される。一方、文字塊の重複がある場合は、
これら文字パタンそれぞれの認識結果とその前あるいは
後の数文字の認識結果とを組み合わせて単語が生成され
る。生成された単語は単語辞書と照合される。
In this prior art, a character block is first cut out from a line image. Here, the character block is a block region of black bits. Note that the character block cut out from the line image is also referred to as a primary segment in this specification. This character block may constitute a character pattern by itself or may be a part of the character pattern. Next, this character block (primary segment)
Are integrated to generate a character pattern (also referred to as a secondary segment). Next, character recognition is performed on the character pattern (primary segment, secondary segment). If the character pattern does not include the same character block in relation to another character pattern (when there is no overlap of character blocks), the character pattern is cut out as it is. On the other hand, if there are duplicate characters,
A word is generated by combining the recognition result of each of these character patterns with the recognition result of several characters before or after the character pattern. The generated words are checked against a word dictionary.

【0004】生成された単語で単語辞書中の登録単語に
一致した生成単語については、その文字パタンが切り出
される。不一致の場合は、単語生成の前の文字パターン
それぞれの評価値および単語の評価値が求められ、評価
値が最高の文字パタンが切り出される。
[0004] For a generated word that matches a registered word in the word dictionary with the generated word, its character pattern is cut out. If they do not match, the evaluation value of each character pattern before word generation and the evaluation value of the word are obtained, and the character pattern with the highest evaluation value is cut out.

【0005】この従来の文字切り出し方法によれば、文
字塊の重複があり単語照合によっては切り出しが出来な
いことが判明した文字パタンに関してのみ、認識結果の
確からしさの評価値が求められる。そのため評価値を求
める処理に無駄がないので文字切り出し処理の効率を高
められる。
[0005] According to this conventional character extraction method, an evaluation value of the certainty of the recognition result is obtained only for a character pattern that has been determined to be impossible to extract by word collation due to overlapping character blocks. Therefore, there is no waste in the process of obtaining the evaluation value, and the efficiency of the character segmentation process can be increased.

【0006】[0006]

【発明が解決しようとする課題】しかしながら、従来技
術では、1次セグメントについての認識結果(候補文字
コード)およびまたは2次セグメントについての認識結
果(候補文字コード)を組み合わせて単語を作成するに
当たり、それぞれの認識結果とその前後数文字とを組み
合わせると記載しているだけであり、作成する単語の長
さについては明確ではない。そのため場合によっては、
無用に長い単語を作成することになり計算量に無駄が生
じることもある。
However, in the prior art, when a word is created by combining the recognition result (candidate character code) for the primary segment and the recognition result (candidate character code) for the secondary segment, It merely states that each recognition result is combined with several characters before and after it, and the length of the word to be created is not clear. Therefore, in some cases,
Unnecessarily long words are created, and the amount of calculation may be wasted.

【0007】文字認識対象分野によっては、単語の文字
数を制限できる場合がある。そして単語の文字数をあら
かじめ制限することができれば単語作成処理や単語照合
処理の際の計算量を低減することができるので、より効
率良く文字を切り出せる。
[0007] Depending on the field of character recognition, the number of characters in a word may be limited. If the number of characters in a word can be limited in advance, the amount of calculation in word creation processing and word collation processing can be reduced, so that characters can be cut out more efficiently.

【0008】[0008]

【課題を解決するための手段】そこでこの出願の文字切
り出し方法の発明によれば、メモリに格納されている文
字列についての画像データを含む原画像データから、黒
ビットの塊領域である1次セグメントをその座標が分か
る状態でそれぞれ抽出する処理と、抽出された各1次セ
グメントを所定規則に従い統合して2次セグメントをそ
の座標が分かる状態で作成する処理と、各1次セグメン
トおよび各2次セグメントそれぞれを文字認識する処理
と、該文字認識により得られる1次セグメントおよび2
次セグメントそれぞれの候補文字コードを組み合わせて
単語を作成する処理と、前記作成された単語を単語辞書
と照合する処理と、該単語照合の結果に基づいて前記各
1次セグメントおよび前記各2次セグメントのうちのい
ずれかを1文字分の文字切り出し領域と決定する処理
と、を含む文字切り出し方法において、前記単語を構成
する文字数を規制して前記単語を作成することを特徴と
する。
Therefore, according to the invention of the character extracting method of this application, the original image data including the image data of the character string stored in the memory is converted into a primary area which is a block area of black bits. A process of extracting each segment in a state where its coordinates are known, a process of integrating each extracted primary segment according to a predetermined rule, and creating a secondary segment in a state where its coordinates are known, a process of extracting each primary segment and each of the two segments Character recognition processing for each of the next segments, and the primary segments and 2 obtained by the character recognition
A process of creating a word by combining candidate character codes of each of the next segments; a process of matching the created word with a word dictionary; and the primary segment and the secondary segment based on a result of the word matching. Deciding one of the characters as a character cutout area for one character, wherein the word is created by limiting the number of characters constituting the word.

【0009】この文字切り出し方法の発明によれば、作
成される単語の文字数が規制されるので、単語作成処理
や単語照合処理の際の計算量が低減される。
According to the invention of the character extracting method, the number of characters of a word to be created is restricted, so that the amount of calculation in the word creating process and the word matching process is reduced.

【0010】なお、ここでは1次セグメントは黒ビット
の塊領域であると説明した。ここで黒ビットと述べたの
は文字構成画素を黒画素と考えてのことであり、黒ビッ
トを限定する趣旨ではない。白黒反転する場合であれば
白ビットの塊領域が1次セグメントになることを付記す
る。
[0010] Here, it has been described that the primary segment is a lump area of black bits. The word “black bit” here means that the character constituent pixels are considered as black pixels, and is not intended to limit the black bits. Note that in the case of black and white inversion, the lump area of white bits becomes the primary segment.

【0011】この文字切り出し方法の発明の実施に当た
り、文字数を規制するための基準値を、文字認識対象と
なる分野に応じ決めるのが好適である。ここで文字認識
対象となる分野とは、例えば住所データや、姓名データ
等、個々のデータの文字数が大体において何文字以内に
納まることが予想できる分野である。このように分野に
応じ基準値を決めると、適正な文字数以内で単語作成が
行なえる。
In practicing the invention of the character extracting method, it is preferable that a reference value for regulating the number of characters is determined in accordance with the field of character recognition. Here, the field to be subjected to character recognition is a field in which the number of characters of each piece of data can be expected to be approximately within the number of characters, such as address data and first and last name data. When the reference value is determined according to the field in this way, words can be created within an appropriate number of characters.

【0012】さらにこの文字切り出し方法の発明の実施
に当たり、前記2次セグメントは、文字の並ぶ方向をX
方向としたとき該X方向に連続しているm個の1次セグ
メントを所定規則に従い統合することで作成し、かつ、
前記単語は、前記1次セグメントおよびまたは2次セグ
メントの連接で表される候補パスであって以下の(a) 〜
(d) の処理を含む処理により作成される候補パスに基づ
いて作成するのが好適である。ただし、mは2以上の整
数。
Further, in implementing the invention of the character segmentation method, the secondary segment has a direction in which characters are arranged in X.
The direction is created by integrating m primary segments that are continuous in the X direction according to a predetermined rule, and
The word is a candidate path represented by the concatenation of the primary segment and / or the secondary segment, and includes the following (a) to
It is preferable to create it based on the candidate path created by the process including the process (d). Here, m is an integer of 2 or more.

【0013】(a) 前記m個の1次セグメントそれぞれを
前記X方向で区分けする座標を、切り出し候補位置Ci
(i=0〜m)としたとき、前記m個の1次セグメント
および前記作成した2次セグメントの中から、切り出し
候補位置C0が切り出し開始点となっているセグメント
をすべて抽出する処理。
(A) Coordinates for dividing each of the m primary segments in the X direction are determined as candidate clipping positions Ci
When (i = 0 to m), a process of extracting all the segments whose extraction candidate position C0 is the extraction start point from the m primary segments and the created secondary segments.

【0014】(b) 前記(a) の処理にて抽出されたセグメ
ントそれぞれについて、そのセグメントの終了点側の切
り出し候補位置Cj(j=1〜m)が切り出し開始位置
となっているため連接することができる他のセグメン
ト、該他のセグメントに前記と同様な切り出し候補位置
の関係となっているためさらに連接することができる他
のセグメントを、終了点側の切り出し候補位置がCmと
なっている他のセグメントが出現するまで、前記m個の
1次セグメントおよび前記作成した2次セグメントの中
から抽出する処理。
(B) With respect to each of the segments extracted in the process (a), the segmentation candidate positions Cj (j = 1 to m) on the end point side of the segment are connected since the segmentation start positions are set. Other segments that can be connected, and other segments that have the same relationship as the above-described segmentation candidate positions to the other segments, have another segment that can be further connected to the segment, and the segmentation candidate position on the end point side is Cm. A process of extracting from the m primary segments and the created secondary segments until another segment appears.

【0015】(c) 前記(b) の処理において前記他のセグ
メントを抽出する度に、該他のセグメントまでで構成さ
れる候補パスのセグメント数が規定数以内か否かを判定
する処理。
(C) Every time the other segment is extracted in the process of (b), a process of determining whether or not the number of segments of the candidate path including the other segment is within a specified number.

【0016】(d) セグメント数が前記規定数以内の候補
パスで、かつ、候補パス中の最終セグメントの終了点側
切り出し候補位置がCmとなっている候補パスを、単語
作成のための候補パスとする処理。
(D) A candidate path having a number of segments within the specified number and a candidate position for extracting the end point of the last segment in the candidate path being Cm is set as a candidate path for word creation. Processing.

【0017】この好適例によれば、m個の1次セグメン
トで規定される切り出し領域から、切り出し候補位置C
0が出発点でかつ切り出し候補位置Cmが終了点で然も
セグメント数が規定数以内となっているセグメント列か
らなる候補パスが全て抽出される。抽出された候補パス
を構成しているセグメントそれぞれの認識結果(候補文
字コード)は認識処理にて既に判明しているので、抽出
された候補パスからは規定数以内の文字数からなる単語
が生成される。
According to this preferred embodiment, the extraction candidate position C is selected from the extraction area defined by the m primary segments.
All the candidate paths consisting of the segment sequence in which 0 is the starting point, the cutout candidate position Cm is the end point, and the number of segments is within the specified number are extracted. Since the recognition result (candidate character code) of each of the segments constituting the extracted candidate path has already been found in the recognition processing, a word having a specified number of characters or less is generated from the extracted candidate path. You.

【0018】上述した好適例における候補パス作成処理
は 具体的には以下の(1) 〜(9) の処理を含む処理によ
り作成するのが好適である。
Specifically, the candidate path creation process in the preferred embodiment described above is preferably created by a process including the following processes (1) to (9).

【0019】(1) 前記m個の1次セグメントそれぞれを
前記X方向で区分けする座標を、切り出し候補位置C0
〜Cmとしたとき、着目した切り出し候補位置Ci(i
=0〜m)がCmか否かを判定する第1の処理。
(1) Coordinates for dividing each of the m primary segments in the X direction are designated as cutout candidate positions C0
To Cm, the cutout candidate position Ci (i
= 0 to m) is Cm.

【0020】(2) 前記第1の処理でCi=Cmと判定さ
れた場合に実行され、現在の候補パスを候補パスメモリ
に記録する第2の処理。
(2) A second process which is executed when it is determined that Ci = Cm in the first process, and records the current candidate path in the candidate path memory.

【0021】(3) 前記第1の処理でCi≠Cmと判定さ
れた場合に実行され、切り出し候補位置Ciと切り出し
候補位置Cj(j=i+1)とに挟まれるセグメントS
k+1が存在するか否かを判定する第3の処理。
(3) This is executed when it is determined that Ci 判定 Cm in the first processing, and the segment S sandwiched between the extraction candidate position Ci and the extraction candidate position Cj (j = i + 1)
Third processing for determining whether or not k + 1 exists.

【0022】(4) 前記第3の処理でセグメントが存在す
ると判定された場合に実行され、前記セグメントSk+
1を候補パスに加えた場合に該候補パスのセグメント数
が規定数を越えないか否かを判定する第4の処理。
(4) Executed when it is determined in the third processing that a segment exists, and the segment Sk +
A fourth process of determining whether the number of segments of the candidate path does not exceed a specified number when 1 is added to the candidate path.

【0023】(5) 前記第4の処理で規定数以内と判定さ
れた場合に実行され、前記セグメントSk+1を前記候
補パスに追加する第5の処理。
(5) A fifth process which is executed when it is determined in the fourth process that the number is within the specified number, and adds the segment Sk + 1 to the candidate path.

【0024】(6) 前記第5の処理に続いて実行され、前
記切り出し候補位置Cjを前記着目した切り出し候補位
置Ciとみなして、前記第1の処理から再実行する第6
の処理。
(6) The sixth processing which is executed subsequent to the fifth processing and is executed again from the first processing by regarding the cut candidate position Cj as the focused cut candidate position Ci.
Processing.

【0025】(7) 前記第5の処理と前記第6の処理とを
実行して作成された候補パスについては、該候補パスに
最新に追加されたセグメントを該候補パスから削除する
第7の処理。
(7) For the candidate path created by executing the fifth and sixth processes, the seventh segment for deleting the segment most recently added to the candidate path from the candidate path. processing.

【0026】(8) 前記第3の処理で否と判定された場
合、または前記第4の処理で否と判定された場合、また
は前記第7の処理が実行された場合に実行され、前記切
り出し候補位置を規定しているjをj=j+1に変更
し、かつ、変更したjが前記mとの関係でj>mを満た
すか否かを判定する第8の処理。
(8) When the determination is negative in the third processing, when the determination is negative in the fourth processing, or when the seventh processing is performed, Eighth processing for changing j defining the candidate position to j = j + 1 and determining whether or not the changed j satisfies j> m in relation to m.

【0027】(9) 前記第8の処理でj≦mと判定された
場合に実行され、前記第3の処理から再実行する第9の
処理。
(9) A ninth process that is executed when j ≦ m is determined in the eighth process, and is re-executed from the third process.

【0028】これら(1) 〜(9) の処理によれば、m個の
1次セグメントで規定される切り出し領域から、切り出
し候補位置C0が出発点でかつ切り出し候補位置Cmが
終了点で然もセグメント数が規定数以内となっているセ
グメント列から成る候補パスが全て抽出される。
According to the processes (1) to (9), from the cutout area defined by the m primary segments, the cutout candidate position C0 is the starting point and the cutout candidate position Cm is the end point. All the candidate paths composed of the segment sequence in which the number of segments is within the specified number are extracted.

【0029】さらにこの文字切り出し方法の発明を実施
するに当たり、1次セグメントを統合するときの前記所
定規則として、文字の並ぶ方向をX方向としたとき、該
X方向に連続しているm個の1次セグメントのうちの高
さが最高のセグメントの当該高さHを求め、かつ、着目
する1次セグメントに対しX方向でH×Nの座標範囲に
存在する他の1次セグメントを該着目する1次セグメン
トに統合するという規則を用いるのが好適である。ただ
しNは予め定めた値である。
Further, in implementing the invention of the character segmentation method, when the direction in which the characters are arranged is set to the X direction as the predetermined rule when the primary segments are integrated, m continuous m characters in the X direction are set. The height H of the segment having the highest height among the primary segments is obtained, and another primary segment existing in the H × N coordinate range in the X direction with respect to the primary segment of interest is focused on. It is preferred to use the rule of merging into primary segments. Here, N is a predetermined value.

【0030】手書き文字は、書き手や書き手を取り巻く
状況によって文字の大きさや文字の間隔等が変化するの
が普通である。したがって、行高さも変化することが普
通である。そこでセグメントの高さを考慮することによ
り、上記の行高さの変動が考慮されることになる。その
結果、書き手や書き手を取り巻く状況によって変化する
文字の大きさ等を考慮した条件で2次セグメントを作成
することができるので、妥当な2次セグメントを作成す
ることができる。なおNの値は経験的(統計的)に決定
するのが良い。この出願に係る発明者の研究によれば、
Nを1.2とすることで好ましい統合が実現されること
が分かっている。
Generally, the size of a handwritten character, the space between characters, and the like change depending on the writer and the circumstances surrounding the writer. Therefore, it is common that the row height also changes. Therefore, by considering the height of the segment, the above variation in the row height is taken into account. As a result, the secondary segment can be created under conditions that take into account the size of the character that changes depending on the writer and the circumstances surrounding the writer, and so an appropriate secondary segment can be created. The value of N is preferably determined empirically (statistically). According to the inventor's research on this application,
It has been found that preferable integration is realized by setting N to 1.2.

【0031】なお上述の文字切り出し方法の発明を実施
するため、以下のように文字切り出し装置を構成するの
が好適である。
In order to carry out the above-described character extracting method, it is preferable to configure a character extracting device as follows.

【0032】メモリに格納されている文字列についての
画像データを含む入力画像データから、黒ビットの塊領
域である1次セグメントをその座標が分かる状態でそれ
ぞれ抽出するセグメント抽出部と、抽出された各1次セ
グメントを所定規則に従い統合し2次セグメントをその
座標が分かる状態で作成するセグメント統合部と、各1
次セグメントおよび各2次セグメントそれぞれを文字認
識する文字認識部と、該文字認識により得られる1次セ
グメントおよびまたは2次セグメントそれぞれの候補文
字コードを組み合わせて単語を作成する単語作成部と、
前記作成された単語を単語辞書と照合する単語照合部
と、該単語照合の結果に基づいて前記各1次セグメント
および前記各2次セグメントのうちのいずれかを1文字
分の文字切り出し領域と決定する結果選択部とを具える
と共に、前記単語作成部に、単語を構成する文字数を規
制するための文字数規則検査部を具えた文字切り出し装
置。
A segment extraction unit for extracting, from input image data including image data of a character string stored in the memory, a primary segment, which is a block area of black bits, in a state where its coordinates are known; A segment integration unit for integrating each primary segment according to a predetermined rule and creating a secondary segment with its coordinates known;
A character recognizing unit for recognizing each of the next segment and each of the secondary segments, a word generating unit for generating a word by combining candidate character codes of the primary and / or secondary segments obtained by the character recognition,
A word matching unit that matches the created word with a word dictionary; and determines one of the primary segments and the secondary segments as a character cutout area for one character based on a result of the word matching. And a character selecting unit for controlling the number of characters constituting the word in the word creating unit.

【0033】またこの文字切り出し装置の発明の実施に
当たり、前記セグメント統合部として、文字の並ぶ方向
をX方向としたとき該X方向に連続しているm個の1次
セグメントを所定規則に従い統合するセグメント統合部
を具え、前記単語作成部を、(A)以下の(1) 〜(8) の
手段を含み前記1次セグメントおよびまたは2次セグメ
ントの連接で表される候補パスを作成する候補パス作成
部と、(B)該候補パス作成部に含まれる第3の手段で
セグメントが存在すると判定された場合に動作し、セグ
メントSk+1を候補パスに加えた場合に該候補パスの
セグメント数が規定数を越えないか否かを判定すること
で前記文字数を規制する文字数規則検査部とで構成する
のが好適である。ただし、mは2以上の整数。
In implementing the invention of the character extracting apparatus, the segment integrating unit integrates m primary segments continuous in the X direction according to a predetermined rule when the direction in which characters are arranged is the X direction. A segment integrating unit, wherein the word creating unit (A) includes a means (1) to (8) below and creates a candidate path represented by a concatenation of the primary segment and / or the secondary segment. (B) operates when the third means included in the candidate path generating unit determines that a segment exists, and when the segment Sk + 1 is added to the candidate path, the number of segments of the candidate path is defined. It is preferable that the number of characters is controlled by determining whether the number does not exceed the number of characters. Here, m is an integer of 2 or more.

【0034】(1) 前記m個の1次セグメントそれぞれを
前記X方向で区分けする座標を、切り出し候補位置C0
〜Cmとしたとき、着目した切り出し候補位置Ci(i
=0〜m)がCmか否かを判定する第1の手段。
(1) The coordinates for dividing each of the m primary segments in the X direction are defined as a candidate cutout position C0.
To Cm, the cutout candidate position Ci (i
= 0 to m) is Cm.

【0035】(2) 前記第1の手段でCi=Cmと判定さ
れた場合に動作し、現在の候補パスを候補パスメモリに
記録する第2の手段。
(2) A second means which operates when the first means determines that Ci = Cm, and records the current candidate path in the candidate path memory.

【0036】(3) 前記第1の手段でCi≠Cmと判定さ
れた場合に動作し、切り出し候補位置Ciと切り出し候
補位置Cj(j=i+1)とに挟まれるセグメントSk
+1が存在するか否かを判定する第3の手段。
(3) The operation is performed when Ci と Cm is determined by the first means, and the segment Sk sandwiched between the extraction candidate position Ci and the extraction candidate position Cj (j = i + 1)
Third means for determining whether or not +1 exists.

【0037】(4) 前記文字数規則検査部で規定数以内と
判定された場合に動作し、前記セグメントSk+1を前
記候補パスに追加する第4の手段。
(4) A fourth means which operates when the number-of-characters rule checking unit determines that the number is within the specified number, and adds the segment Sk + 1 to the candidate path.

【0038】(5) 前記第4の手段に続いて動作し、前記
切り出し候補位置Cjを前記着目した切り出し候補位置
Ciとみなして、前記第1の手段の動作を開始させる第
5の手段。
(5) Fifth means which operates following the fourth means, and regards the cut candidate position Cj as the focused cut candidate position Ci and starts the operation of the first means.

【0039】(6) 前記第4の手段および前記第5の手段
が動作した結果作成された候補パスについては、該候補
パスに最新に追加されたセグメントを該候補パスから削
除する第6の手段。
(6) For a candidate path created as a result of the operation of the fourth means and the fifth means, a sixth means for deleting from the candidate path the segment most recently added to the candidate path. .

【0040】(7) 前記第3の手段が否と判定した場合、
または前記文字数規則検査部が規定数を越えると判定し
た場合、または前記第6の手段が動作した後に動作し、
前記切り出し候補位置を規定しているjをj=j+1に
変更し、かつ、変更したjが前記mとの関係でj>mを
満たすか否かを判定する第7の手段。
(7) When the third means determines that no,
Or, if the character number rule checking unit determines that the number exceeds a specified number, or operates after the sixth means is operated,
A seventh means for changing j defining the cutout candidate position to j = j + 1 and determining whether the changed j satisfies j> m in relation to the m.

【0041】(8) 前記第7の手段がj≦mと判定した場
合に動作し、前記第3の手段を動作させる第8の手段。
(8) An eighth means for operating when the seventh means determines that j ≦ m, and for operating the third means.

【0042】また、この文字切り出し装置の発明の実施
に当たり、前記セグメント統合部は、文字の並ぶ方向を
X方向としたとき、該X方向に連続しているm個の1次
セグメントのうちの高さが最高のセグメントの当該高さ
Hを求める手段と、着目する1次セグメントに対しX方
向でH×Nの座標範囲に存在する他の1次セグメントを
該着目する1次セグメントに統合する手段とを含む構成
とするのが好適である。ただしNは予め定めた値であ
る。
In implementing the invention of the character segmenting apparatus, when the direction in which the characters are arranged is the X direction, the segment integration section sets the height of the m primary segments continuous in the X direction. Means for obtaining the height H of the segment having the highest segment, and means for integrating another primary segment present in the H × N coordinate range in the X direction with respect to the primary segment of interest into the primary segment of interest. It is preferable to adopt a configuration including Here, N is a predetermined value.

【0043】[0043]

【発明の実施の形態】以下、図面を参照してこの発明の
文字切り出し方法および文字切り出し装置の実施の形態
について併せて説明する。しかしながら説明に用いる各
図はこの発明を理解することができる程度に概略的に示
してある。
BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a block diagram of a character extracting apparatus according to an embodiment of the present invention; However, the drawings used in the description are schematically shown to the extent that the present invention can be understood.

【0044】図1は実施の形態の文字切り出し装置の構
成を示した図である。この文字切り出し装置10は、制
御部11、画像入力部13、文字数規則入力部15、セ
グメント抽出部17、セグメント統合部19、文字認識
部21、単語作成部23、単語照合部25、結果選択部
27および結果出力部29を具える。
FIG. 1 is a diagram showing a configuration of a character cutout device according to the embodiment. The character segmenting apparatus 10 includes a control unit 11, an image input unit 13, a character number rule input unit 15, a segment extraction unit 17, a segment integration unit 19, a character recognition unit 21, a word creation unit 23, a word comparison unit 25, and a result selection unit. 27 and a result output unit 29.

【0045】これら構成成分11〜29はコンピュータ
およびその周辺装置によりそれぞれ構成することができ
る。以下、各構成成分の構成および動作について順次に
説明する。
These components 11 to 29 can be constituted by a computer and its peripheral devices, respectively. Hereinafter, the configuration and operation of each component will be sequentially described.

【0046】制御部11は、各構成成分13〜29の動
作を制御する。
The control section 11 controls the operation of each of the components 13 to 29.

【0047】画像入力部13は、メモリ(図示せず)を
含んでいて、文字認識対象である原画像データを入力し
該メモリに格納する。具体的には、白黒二値で表される
原画像データを入力する。
The image input section 13 includes a memory (not shown), inputs original image data to be recognized, and stores the input image data in the memory. Specifically, original image data represented by black and white binary is input.

【0048】この画像入力部13は、任意好適な構成と
することができる。例えばスキャナを有し原稿からの光
信号を光電変換して原画像データをメモリに取り込む構
成の画像入力部であったり、または、原画像データをそ
もそも格納している他のデータベースであっても良い。
もちろん、多値画像から二値画像を得る場合があっても
良い。
The image input section 13 can have any suitable configuration. For example, the image input unit may have a configuration in which a scanner is provided and photoelectrically converts an optical signal from a document and takes in the original image data into a memory, or another database that stores the original image data in the first place. .
Of course, a binary image may be obtained from a multivalued image.

【0049】文字数規則入力部15は、単語作成部23
で作成する単語の文字数を規制するための基準値を入力
する。この文字数規則入力部15は、例えばコンピュー
タおよびそのキーボードにより構成することができる。
The number-of-characters rule input unit 15 includes a word creating unit 23.
Enter the reference value for regulating the number of characters in the word created in. The character number rule input unit 15 can be constituted by, for example, a computer and its keyboard.

【0050】例えばオペレータは、単語作成部23で作
成する単語の文字数を規制するための基準値を、キーボ
ードから入力することができる。ここでは候補パス(後
述する)を構成するセグメント数の上限値を基準値とし
て入力する。またこの基準値は、例えば文字認識対象の
分野に応じて入力することが出来る。例えば名字に関す
るデータを認識する例であれば、名字は長くても例えば
4文字以内であるので、基準値として4を入力する。
For example, the operator can input a reference value for regulating the number of characters of a word created by the word creating section 23 from a keyboard. Here, an upper limit value of the number of segments constituting a candidate path (described later) is input as a reference value. The reference value can be input, for example, according to the field of the character recognition target. For example, in the case of recognizing data related to surnames, the surname is at most four characters or less, for example, so 4 is input as a reference value.

【0051】セグメント抽出部17は、画像入力部13
のメモリに格納されている原画像データから黒ビットの
塊領域である1次セグメントをその座標が分かる状態で
それぞれ抽出する。
The segment extraction unit 17 is provided with the image input unit 13
The primary segment, which is a block area of black bits, is extracted from the original image data stored in the memory of FIG.

【0052】このセグメント抽出部17でのセグメント
抽出処理は、従来から良く知られている黒ビット(黒点
ともいう)の水平方向、垂直方向の射影分布を利用する
方法で容易に行なうことができる。
The segment extraction processing in the segment extraction unit 17 can be easily performed by a method using the horizontal and vertical projection distributions of black bits (also referred to as black points) which are well known in the art.

【0053】具体的には、原画像データが格納されてい
るメモリを水平方向に走査し、黒点のヒストグラムを求
める。このヒストグラムにおける極小点それぞれを水平
方向についての切り出し候補位置Ciとする。走査方向
を垂直方向に変えて同様の処理を行なって、垂直方向に
ついての切り出し候補位置を抽出する。切り出し候補位
置に囲まれる矩形の領域内に1次セグメントは含まれ
る。
More specifically, the memory in which the original image data is stored is scanned in the horizontal direction, and a histogram of black points is obtained. Each minimum point in the histogram is set as a candidate cutting position Ci in the horizontal direction. The same processing is performed by changing the scanning direction to the vertical direction, and the extraction candidate position in the vertical direction is extracted. The primary segment is included in a rectangular area surrounded by the extraction candidate positions.

【0054】このセグメント抽出部17の動作の理解を
深めるために、図2に、原画像データ31から抽出され
た1次セグメントS0〜S5と、各1次セグメントを文
字の並ぶ方向(この例ではX方向)で区分けする座標す
なわち切り出し候補位置C0〜C6とをそれぞれ示し
た。
In order to deepen the understanding of the operation of the segment extracting section 17, FIG. 2 shows primary segments S0 to S5 extracted from the original image data 31 and each primary segment in a direction in which characters are arranged (in this example, (X direction), that is, the cutout candidate positions C0 to C6 are shown.

【0055】なお1次セグメントS0〜S5それぞれ
の、X方向開始座標Xs、X方向終了座標Xe、Y方向
開始座標Ys、Y方向終了座標Yeそれぞれを、セグメ
ント抽出部17は、内部のセグメント座標テーブル(図
示せず)に格納する。図3に、1次セグメントS0〜S
5についてのセグメント座標テーブルを模式的に示し
た。例えば1次セグメントS0についてのXs〜Ye
は、Xs=10、Xe=26、Ys=61、Ye=10
5であることが分かる。
The X-direction start coordinates Xs, X-direction end coordinates Xe, Y-direction start coordinates Ys, and Y-direction end coordinates Ye of each of the primary segments S0 to S5 are stored in an internal segment coordinate table. (Not shown). FIG. 3 shows primary segments S0 to S
5 schematically shows the segment coordinate table. For example, Xs to Ye for the primary segment S0
Xs = 10, Xe = 26, Ys = 61, Ye = 10
It turns out that it is 5.

【0056】また、後に候補パスを作成する際に必要な
X方向についての切り出し候補位置(座標)C0〜C6
を、セグメント抽出部17は内部の所定メモリ(図示せ
ず)に記憶する。
Further, the cutout candidate positions (coordinates) C0 to C6 in the X direction necessary for creating a candidate path later.
Is stored in an internal predetermined memory (not shown).

【0057】セグメント統合部19は、セグメント抽出
部17で抽出された各1次セグメントを所定規則に従い
統合して2次セグメントを作成する。具体的には、隣接
する複数の1次セグメントの形状特徴を考慮し、統合し
ても1文字としての可能性がある場合、それら1次セグ
メントを統合して2次セグメントを作成する。ここで
は、以下の手順で2次セグメントを作成する。
The segment integrating section 19 integrates the primary segments extracted by the segment extracting section 17 according to a predetermined rule to create a secondary segment. Specifically, in consideration of the shape characteristics of a plurality of adjacent primary segments, if there is a possibility that they will be one character even if they are integrated, the primary segments are integrated to create a secondary segment. Here, a secondary segment is created by the following procedure.

【0058】先ず、該X方向に連続しているm個の1次
セグメントのうちの高さが最高のセグメントの当該高さ
Hを求める。この高さHは、各1次セグメントについて
のYs座標とYe座標との差を求めることで求まる。図
2の例の6個の1次セグメントの例で考えると、セグメ
ントS5のY座標差が112−5=107であり、他の
セグメントS0〜S4のどれよりも、高さが高い。した
がって、図2の例の場合は、高さが最高のセグメント
は、セグメントS5となる。
First, the height H of the segment having the highest height among the m primary segments continuous in the X direction is obtained. The height H is obtained by calculating the difference between the Ys coordinate and the Ye coordinate for each primary segment. Considering the example of the six primary segments in the example of FIG. 2, the Y coordinate difference of the segment S5 is 112-5 = 107, which is higher than any of the other segments S0 to S4. Therefore, in the example of FIG. 2, the segment having the highest height is the segment S5.

【0059】次に、着目する1次セグメントに対しX方
向でH×Nの座標範囲に存在する他の1次セグメントを
該着目する1次セグメントに統合して、2次セグメント
を作成する。
Next, a secondary segment is created by integrating another primary segment present in the H × N coordinate range in the X direction with respect to the primary segment of interest into the primary segment of interest.

【0060】この2次セグメント作成処理について、図
2に示した1次セグメントの説明図と、図3に示したセ
グメント座標テーブルと、図4に示したセグメント統合
処理の流れ図と、図5に示した2次セグメント作成手順
の説明図とを参照して、より具体的に説明する。
Regarding the secondary segment creation processing, the illustration of the primary segment shown in FIG. 2, the segment coordinate table shown in FIG. 3, the flow chart of the segment integration processing shown in FIG. 4, and FIG. This will be described more specifically with reference to the explanatory diagram of the secondary segment creation procedure.

【0061】先ず、全入力セグメントそれぞれを始点と
したループ1の処理を開始する。そこで、着目セグメン
ト(図4ではセグメントA)として先ず1次セグメント
S0を始点としたループ1の処理を開始する(図4のス
テップ41〜47)。
First, the processing of loop 1 starting from each input segment is started. Therefore, as a target segment (segment A in FIG. 4), the process of loop 1 starting from the primary segment S0 is first started (steps 41 to 47 in FIG. 4).

【0062】すなわち、1次セグメントS0と、その右
に並ぶセグメントBとしての1次セグメントS1との、
文字の並ぶ方向(ここではX方向)についての距離Dを
求める(図4のステップ42,43)。この距離Dは各
セグメントS0,S1それぞれの例えばXs座標同士の
差により求まる。するとこの例では距離D=52−10
=42ということになる。
That is, the primary segment S0 and the primary segment S1 as the segment B arranged to the right thereof
The distance D in the direction in which the characters are arranged (here, the X direction) is determined (steps 42 and 43 in FIG. 4). This distance D is obtained from, for example, the difference between the Xs coordinates of each of the segments S0 and S1. Then, in this example, the distance D = 52−10
= 42.

【0063】次に、距離DがH×Nの範囲か否かを判定
する(図4のステップ44)。ここで、Nは予め定めた
値である。ここではN=1.2とする。また、Hは上述
したようにここでは107である。したがって、この場
合、D≦1.2×107=128.4を満たすか否かを
判定する。
Next, it is determined whether or not the distance D is in the range of H × N (step 44 in FIG. 4). Here, N is a predetermined value. Here, N = 1.2. H is 107 here as described above. Therefore, in this case, it is determined whether or not D ≦ 1.2 × 107 = 128.4 is satisfied.

【0064】図2の例の場合は1次セグメントS0と1
次セグメントS1との距離Dは、D≦1.2×107の
条件を満たすので、1次セグメントS1は1次セグメン
トS0に統合され、2次セグメントS6が作成される
(図4のステップ45、図5参照)。
In the case of the example of FIG. 2, the primary segments S0 and S1
Since the distance D from the next segment S1 satisfies the condition of D ≦ 1.2 × 107, the primary segment S1 is integrated into the primary segment S0 to create the secondary segment S6 (step 45 in FIG. 4, (See FIG. 5).

【0065】次に、ループ2が再実行されるので(図4
のステップ46,42)、今度は、1次セグメントS0
と1次セグメントS2との距離Dを求める(図4のステ
ップ43)。この距離Dは126−10=116であ
る。
Next, the loop 2 is executed again (FIG. 4
Steps 46 and 42), this time the primary segment S0
The distance D between the first segment S2 is obtained (step 43 in FIG. 4). This distance D is 126-10 = 116.

【0066】次に、この距離DがH×Nの範囲か否かを
判定する(図4のステップ44)。この場合、1次セグ
メントS0に対し1次セグメントS2は、D≦1.2×
107の条件を満たすので、統合され、2次セグメント
S7が作成される(図4のステップ45、図5参照)。
Next, it is determined whether or not the distance D is in the range of H × N (step 44 in FIG. 4). In this case, the primary segment S2 is D ≦ 1.2 × with respect to the primary segment S0.
Since the condition of 107 is satisfied, they are integrated and the secondary segment S7 is created (see step 45 in FIG. 4 and FIG. 5).

【0067】次に、ループ2が再実行されるので(図4
のステップ46,42)、今度は、1次セグメントS0
と1次セグメントS3との距離Dを求める(図4のステ
ップ43)。この距離Dは180−10=170であ
る。
Next, since the loop 2 is executed again (FIG. 4)
Steps 46 and 42), this time the primary segment S0
The distance D between the first segment S3 and the primary segment S3 is determined (step 43 in FIG. 4). This distance D is 180-10 = 170.

【0068】次に、この距離DがH×Nの範囲か否かを
判定する(図4のステップ44)。この場合、1次セグ
メントS0に対し1次セグメントS3は、D≦1.2×
107の条件を満たさないので、統合されない。
Next, it is determined whether or not the distance D is in the range of H × N (step 44 in FIG. 4). In this case, the primary segment S3 is D ≦ 1.2 × with respect to the primary segment S0.
Since the condition of 107 is not satisfied, it is not integrated.

【0069】次に着目する1次セグメントを1次セグメ
ントS1に変更してループ1の処理が開始される(図4
のステップ41,42)。そこで、1次セグメントS1
と1次セグメントS2との距離Dを求める(図4のステ
ップ43)。この距離Dは126−52=74である。
Next, the primary segment of interest is changed to primary segment S1, and the processing of loop 1 is started (FIG. 4).
Steps 41 and 42). Therefore, the primary segment S1
The distance D between the first segment S2 is obtained (step 43 in FIG. 4). This distance D is 126-52 = 74.

【0070】次に、この距離DがH×Nの範囲か否かを
判定する(図4のステップ44)。この場合、1次セグ
メントS1に対し1次セグメントS2は、D≦1.2×
107の条件を満たすので、統合され、2次セグメント
S8が作成される(図4のステップ45、図5参照)。
Next, it is determined whether or not the distance D is in the range of H × N (step 44 in FIG. 4). In this case, the primary segment S2 is D ≦ 1.2 × with respect to the primary segment S1.
Since the condition of 107 is satisfied, they are integrated and a secondary segment S8 is created (see step 45 in FIG. 4 and FIG. 5).

【0071】次に、1次セグメントS1と1次セグメン
トS3との距離Dを求める(図4のステップ43)。こ
の距離Dは180−52=128である。
Next, the distance D between the primary segment S1 and the primary segment S3 is determined (step 43 in FIG. 4). This distance D is 180-52 = 128.

【0072】次に、この距離DがH×Nの範囲か否かを
判定する(図4のステップ44)。この場合、1次セグ
メントS1に対し1次セグメントS3は、D≦1.2×
107の条件を満たすので、統合され、2次セグメント
S9が作成される(図4のステップ45、図5参照)。
Next, it is determined whether or not the distance D is in the range of H × N (step 44 in FIG. 4). In this case, the primary segment S3 is D ≦ 1.2 × with respect to the primary segment S1.
Since the condition of 107 is satisfied, they are integrated and a secondary segment S9 is created (see step 45 in FIG. 4 and FIG. 5).

【0073】次に、1次セグメントS1と1次セグメン
トS4との距離Dを求める(図4のステップ43)。こ
の距離Dは231−52=179である。
Next, the distance D between the primary segment S1 and the primary segment S4 is determined (step 43 in FIG. 4). This distance D is 231-52 = 179.

【0074】次に、この距離DがH×Nの範囲か否かを
判定する(図4のステップ44)。この場合、1次セグ
メントS1に対し1次セグメントS4は、D≦1.2×
107の条件を満たさないので、統合されない。
Next, it is determined whether or not the distance D is in the range of H × N (step 44 in FIG. 4). In this case, the primary segment S4 is D ≦ 1.2 × with respect to the primary segment S1.
Since the condition of 107 is not satisfied, it is not integrated.

【0075】以下、同様に、1次セグメントS2からS
5それぞれを始点として(着目セグメントとして)ルー
プ1の処理を施し、1次セグメントを統合することで、
2次セグメントを作成する。この結果この例ではS6〜
S14の9個(ただし図5ではS6〜S9と、S13,
S14のみ図示)の2次セグメントが作成される。
Hereinafter, similarly, the primary segments S2 to S
5 by performing the processing of Loop 1 with each of them as a starting point (as a target segment) and integrating the primary segments,
Create a secondary segment. As a result, in this example, S6 ~
Nine in S14 (however, in FIG. 5, S6 to S9, S13,
A secondary segment (only S14 is shown) is created.

【0076】これら作成した2次セグメントそれぞれ
の、X方向開始座標Xs、X方向終了座標Xe、Y方向
開始座標Ys、Y方向終了座標Yeそれぞれを、セグメ
ント統合部19は、前記のセグメント座標テーブルに追
加格納する(図4のステップ48)。
The segment integrating unit 19 stores the X direction start coordinate Xs, X direction end coordinate Xe, Y direction start coordinate Ys, and Y direction end coordinate Ye of each of the created secondary segments in the segment coordinate table. It is additionally stored (step 48 in FIG. 4).

【0077】図6に、1次セグメントS0〜S5および
2次セグメントS6〜S14についてのセグメント座標
テーブルを模式的に示した。
FIG. 6 schematically shows a segment coordinate table for the primary segments S0 to S5 and the secondary segments S6 to S14.

【0078】また、上記の1次セグメントS0〜S5と
2次セグメントS6〜S14とに関して、ある切り出し
候補位置と他の切り出し候補位置との間にいかなるセグ
メントが挟まれているかを整理したテーブル(これを
「セグメントテーブル」という)を作成すると、図7の
ようになる。
Further, with respect to the above-mentioned primary segments S0 to S5 and secondary segments S6 to S14, a table in which what segments are sandwiched between a certain extraction candidate position and another extraction candidate position (this Is called a “segment table”) as shown in FIG.

【0079】このセグメントテーブルはグラフ理論でい
う隣接行列である。すなわち、開始切り出し点を行と
し、終了切り出し点を列とした隣接行列を考えると、そ
の要素にセグメント番号(ここではS0〜S14のいず
れか)を与えることにより作成できるテーブルである。
ただし、図7においてNULLとは、空白すなわち、挟
まれるセグメントが無いことを示している。
This segment table is an adjacency matrix in graph theory. That is, considering an adjacent matrix in which the start cutout point is a row and the end cutout point is a column, the table can be created by giving a segment number (in this case, any of S0 to S14) to the element.
However, NULL in FIG. 7 indicates a blank, that is, no segment to be sandwiched.

【0080】この図7から、1次セグメントS0は、切
り出し候補位置C0と切り出し候補位置C1とに挟まれ
るセグメントであること、1次セグメントS6は、切り
出し候補位置C0と切り出し候補位置C2とに挟まれる
セグメントであること、2次セグメントS7は、切り出
し候補位置C0と切り出し候補位置C3とに挟まれるセ
グメントであること等が分かる。
As shown in FIG. 7, the primary segment S0 is a segment sandwiched between the clipping candidate position C0 and the clipping candidate position C1, and the primary segment S6 is sandwiched between the clipping candidate position C0 and the clipping candidate position C2. It can be seen that the secondary segment S7 is a segment sandwiched between the cutout candidate position C0 and the cutout candidate position C3.

【0081】文字認識部21は、各1次セグメントおよ
び各2次セグメントそれぞれを1文字と仮定して文字認
識を行ない、その結果である候補文字コードを格納す
る。文字認識処理自体は、従来公知の任意の方法により
行なうことができる。
The character recognition section 21 performs character recognition on the assumption that each primary segment and each secondary segment is one character, and stores a candidate character code as a result. The character recognition processing itself can be performed by any conventionally known method.

【0082】図8(A)、(B)は、図2に示した1次
セグメントS0を1文字と仮定してこれを文字認識した
例を示している。図8(A)が1次セグメントS0であ
り、図8(B)が、認識の結果としての候補文字の集合
51である。なお候補文字は、実際は候補文字コードに
より与えられる。候補数は特に制限しないが、ここで
は、最大K位までを考慮する。この場合はK=10まで
を考慮する例を考えている。ただし、図8(B)の例の
場合は、候補文字が1個しか出なかった場合を示してい
る。
FIGS. 8A and 8B show an example in which the primary segment S0 shown in FIG. 2 is recognized as one character and is recognized as a character. FIG. 8A shows a primary segment S0, and FIG. 8B shows a set 51 of candidate characters as a result of recognition. Note that the candidate characters are actually given by candidate character codes. Although the number of candidates is not particularly limited, here, up to the K-th position is considered. In this case, an example considering K = 10 is considered. However, the case of FIG. 8B shows a case where only one candidate character appears.

【0083】また、他の1次セグメントS1〜S5それ
ぞれの認識結果を図9(A)〜(E)にそれぞれ示し
た。また、2次セグメントS6〜S14それぞれの認識
結果のうちのいくつかの例(S6,S7,S11〜S1
4に関するもの)を図10(A)〜(C)および、図1
1(A)〜(C)にそれぞれ示した。
The recognition results of the other primary segments S1 to S5 are shown in FIGS. 9A to 9E, respectively. Some examples (S6, S7, S11 to S1) of the recognition results of the secondary segments S6 to S14, respectively.
4A) to 10 (A) to 10 (C) and FIG.
1 (A) to (C).

【0084】単語作成部23は、該文字認識により得ら
れる1次セグメントおよび2次セグメントそれぞれの候
補文字コードを組み合わせて単語を作成する。
The word creating section 23 creates a word by combining the candidate character codes of the primary segment and the secondary segment obtained by the character recognition.

【0085】この実施の形態の単語作成部23は、候補
パス作成部23aと文字数規則検査部23bとを含む構
成としてある。候補パス作成部23aおよび文字数規則
検査部23bの構成および動作について、図12を参照
して以下に説明する。
The word creating section 23 of this embodiment is configured to include a candidate path creating section 23a and a character number rule checking section 23b. The configuration and operation of the candidate path creation unit 23a and the character number rule checking unit 23b will be described below with reference to FIG.

【0086】候補パス作成部23aは、以下の(1) 〜
(8) の手段を含み前記1次セグメントおよびまたは2次
セグメントの連接で表される候補パスを作成する。
The candidate path creation unit 23a performs the following (1) to
A candidate path represented by the concatenation of the primary segment and / or the secondary segment including the means of (8) is created.

【0087】(1) m個の1次セグメントそれぞれをX方
向で区分けする座標を、切り出し候補位置C0〜Cmと
したとき、着目した切り出し候補位置Ci(i=0〜
m)がCmか否かを判定する第1の手段(図12のステ
ップ61)。
(1) When the coordinates for dividing each of the m primary segments in the X direction are set as the extraction candidate positions C0 to Cm, the extracted extraction candidate positions Ci (i = 0 to 0)
First means for determining whether or not m) is Cm (step 61 in FIG. 12).

【0088】(2) 前記第1の手段でCi=Cmと判定さ
れた場合に動作し、現在の候補パスを候補パスメモリ
(図示せず)に記録する第2の手段(図12のステップ
62)。
(2) The second means for operating when the first means determines that Ci = Cm and recording the current candidate path in a candidate path memory (not shown) (step 62 in FIG. 12). ).

【0089】(3) 前記第1の手段でCi≠Cmと判定さ
れた場合に動作し、切り出し候補位置Ciと切り出し候
補位置Cj(j=i+1)とに挟まれるセグメントSk
+1が存在するか否かを判定する第3の手段(図12の
ステップ63〜65)。
(3) The operation is performed when Ci ≠ Cm is determined by the first means, and the segment Sk sandwiched between the extraction candidate position Ci and the extraction candidate position Cj (j = i + 1)
Third means for determining whether or not +1 exists (steps 63 to 65 in FIG. 12).

【0090】(4) 文字数規則検査部で規定数以内と判定
された場合に動作し、前記セグメントSk+1を前記候
補パスに追加する第4の手段(図12のステップ6
6)。
(4) The fourth means for operating when the number-of-characters rule checking unit determines that the number is within the specified number and adding the segment Sk + 1 to the candidate path (step 6 in FIG. 12)
6).

【0091】(5) 前記第4の手段に続いて動作し、前記
切り出し候補位置Cjを前記着目した切り出し候補位置
Ciとみなして、前記第1の手段の動作を開始させる第
5の手段(図12のステップ67)。
(5) Fifth means (FIG. 5) which operates following the fourth means and starts the operation of the first means by regarding the cut candidate position Cj as the focused cut candidate position Ci. Twelve steps 67).

【0092】(6) 前記第4の手段および前記第5の手段
が動作した結果作成された候補パスについては、該候補
パスに最新に追加されたセグメントを該候補パスから削
除する第6の手段(図12のステップ68)。
(6) For a candidate path created as a result of the operation of the fourth means and the fifth means, a sixth means for deleting, from the candidate path, the segment most recently added to the candidate path. (Step 68 in FIG. 12).

【0093】(7) 前記第3の手段が否と判定した場合、
または文字数規則検査部が規定数を越えると判定した場
合、または前記第6の手段が動作した後に動作し、前記
切り出し候補位置を規定しているjをj=j+1に変更
し、かつ、変更したjが前記mとの関係でj>mを満た
すか否かを判定する第7の手段(図12のステップ6
9,70)。
(7) If the third means determines no,
Alternatively, when the character number rule checking unit determines that the number exceeds the specified number, or when the sixth means is operated, it is operated, and j defining the cutout candidate position is changed to j = j + 1 and changed. Seventh means for determining whether j satisfies j> m in relation to m (step 6 in FIG. 12)
9, 70).

【0094】(8) 前記第7の手段がj≦mと判定した場
合に動作し、前記第3の手段を動作させる第8の手段
(図12のステップ70,64)。
(8) An eighth means (steps 70 and 64 in FIG. 12) that operates when the seventh means determines that j ≦ m and operates the third means.

【0095】一方、文字数規則検査部23bは、候補パ
ス作成部23aに含まれる第3の手段でセグメントSk
+1が存在すると判定された場合に動作し、セグメント
Sk+1を候補パスに加えた場合に該候補パスのセグメ
ント数が規定数を越えないか否かを判定することで前記
文字数を規制する(図12のステップ71)。
On the other hand, the character number rule checking unit 23b uses the segment Sk by the third means included in the candidate path creating unit 23a.
The operation is performed when it is determined that +1 exists, and when the segment Sk + 1 is added to the candidate path, the number of characters is regulated by determining whether the number of segments of the candidate path does not exceed a specified number (FIG. 12). Step 71).

【0096】これら候補パス作成部23aおよび文字数
規則検査部23bの理解を深めるために、候補パス作成
処理の具体例を説明する。ただし、候補パス作成処理と
文字数規則検査処理の原理がそれぞれ説明されれば良い
ので、ここではセグメントの数と切り出し候補位置の数
とを少なくした例により説明する。すなわち、切り出し
候補位置がC0〜C2の3個で、かつセグメントがS0
〜S2の3個で、然も各切り出し候補位置C0〜C2と
各セグメントS0〜S2との関係が図13に示したよう
なセグメントテーブルで表される関係となっている場合
での、候補パス作成処理および文字数規則検査処理につ
いて以下に説明する。
In order to deepen the understanding of the candidate path creating unit 23a and the character number rule checking unit 23b, a specific example of the candidate path creating process will be described. However, since the principles of the candidate path creation process and the character number rule checking process need only be explained, an example in which the number of segments and the number of extraction candidate positions are reduced will be described. That is, there are three extraction candidate positions C0 to C2, and the segment is S0
In the case where the relationship between each of the cutout candidate positions C0 to C2 and each of the segments S0 to S2 has a relationship represented by a segment table as shown in FIG. The creation processing and the character number rule inspection processing will be described below.

【0097】なお、切り出し候補位置C0は文字が並ぶ
方向の最初の切り出し候補位置、また、切り出し候補位
置C2は文字が並ぶ方向の最終(最右端)の切り出し候
補位置とする。
Note that the cutout candidate position C0 is the first cutout candidate position in the direction in which the characters are arranged, and the cutout candidate position C2 is the last (rightmost) cutout candidate position in the direction in which the characters are arranged.

【0098】先ず、候補パスメモリ(図示せず)のパス
Pをクリアし、関数Funct(Ci,P)ここでは先
ず(C0,P)についての処理を開始する(図12のス
テップ60)。
First, the path P in the candidate path memory (not shown) is cleared, and the process for the function Funct (Ci, P), here (C0, P), is first started (step 60 in FIG. 12).

【0099】すなわち先ず、候補パス作成部23aは切
り出し候補位置CiここではC0が最右端の切り出し候
補位置か否か(すなわちC0=C2か否か)を判定する
(図12のステップ61)。なお切り出し候補位置Ci
は、ここでは、制御部11がセグメント抽出部17から
候補パス作成部23bに転送する。
That is, first, the candidate path creation unit 23a determines whether or not the cut candidate position Ci, here C0, is the rightmost cut candidate position (ie, whether or not C0 = C2) (step 61 in FIG. 12). Note that the clipping candidate position Ci
Here, the control unit 11 transfers from the segment extraction unit 17 to the candidate path creation unit 23b.

【0100】ここでC0は最右端の切り出し候補位置で
はないので、ステップ63の処理に移る。すなわちj=
i+1=0+1=1の処理が行なわれる。その結果Cj
はC1になる。
Here, since C0 is not the rightmost cut-out candidate position, the process proceeds to step 63. That is, j =
The processing of i + 1 = 0 + 1 = 1 is performed. As a result, Cj
Becomes C1.

【0101】切り出し候補位置C0と切り出し候補位置
C1とに挟まれるセグメントSk+1を、セグメント抽
出部17またはセグメント統合部19から、制御部11
は候補パス作成部23bに転送する。この図13の例の
場合はセグメントS0が転送される。なお該当するセグ
メントが無い場合は、制御部11はその旨の信号(NU
LL)を候補パス作成部23aに転送する。
The segment Sk + 1 sandwiched between the extraction candidate position C0 and the extraction candidate position C1 is sent from the segment extraction unit 17 or the segment integration unit 19 to the control unit 11
Is transferred to the candidate path creation unit 23b. In the case of the example of FIG. 13, the segment S0 is transferred. If there is no corresponding segment, the control unit 11 sends a signal to that effect (NU
LL) is transferred to the candidate path creation unit 23a.

【0102】候補パス作成部23aは、セグメントSk
+1が存在するか否かを判定する(図12のステップ6
5)。この場合はセグメントS0が存在するので、ステ
ップ71に移る。
The candidate path creation section 23a sets the segment Sk
It is determined whether or not +1 exists (step 6 in FIG. 12).
5). In this case, since the segment S0 exists, the process proceeds to step 71.

【0103】ステップ71では、セグメントSk+1を
候補パスPに加えて構成した列(セグメント列)のセグ
メント数が規定数以内か否かが判定される。ここでは規
定数を4と考える。この場合のセグメント列のセグメン
トはS0のみであるのでセグメント数は1であるから、
規定数を満足するので、ステップ66に移る。
In step 71, it is determined whether or not the number of segments in a column (segment column) formed by adding the segment Sk + 1 to the candidate path P is within a specified number. Here, the prescribed number is considered to be four. In this case, since the segment of the segment row is only S0, the number of segments is 1, so that
Since the specified number is satisfied, the process proceeds to step 66.

【0104】ステップ66では、セグメントS0を候補
パスPに追加する処理がなされる。その結果、候補パス
P={S0}になる。その後、ステップ67に移る。
At step 66, processing for adding the segment S0 to the candidate path P is performed. As a result, the candidate path P = {S0}. Thereafter, the process proceeds to step 67.

【0105】ステップ67では、今度はCjを着目する
切り出し候補位置とするので、切り出し候補位置C1が
着目する切り出し候補位置Ciとみなされる。すなわち
関数をFunct(C1,P)とする。そして、ステッ
プ61の処理から処理を再開する。
In step 67, since Cj is set as the target extraction candidate position this time, the extraction candidate position C1 is regarded as the target extraction candidate position Ci. That is, the function is set to Funct (C1, P). Then, the processing is restarted from the processing of step 61.

【0106】したがって、候補パス作成部23aは今度
は切り出し候補位置C1が最右端の切り出し候補位置か
否か(すなわちC1=C2か否か)を判定する(図12
のステップ61)。
Therefore, the candidate path creation unit 23a determines whether the cutout candidate position C1 is the rightmost cutout candidate position (ie, whether or not C1 = C2) (FIG. 12).
Step 61).

【0107】ここでC1は最右端の切り出し候補位置で
はないので、ステップ63の処理に移る。すなわちj=
i+1=1+1=2の処理が行なわれる。その結果、C
jはC2になる。
Since C1 is not the rightmost cut-out candidate position, the process proceeds to step 63. That is, j =
The processing of i + 1 = 1 + 1 = 2 is performed. As a result, C
j becomes C2.

【0108】切り出し候補位置C1と切り出し候補位置
C2とに挟まれるセグメントSk+1を、セグメント抽
出部17またはセグメント統合部19から、制御部11
は候補パス作成部23bに転送する。この図13の例の
場合はセグメントS1が転送される。
The segment Sk + 1 sandwiched between the extraction candidate position C1 and the extraction candidate position C2 is sent from the segment extraction unit 17 or the segment integration unit 19 to the control unit 11
Is transferred to the candidate path creation unit 23b. In the case of the example of FIG. 13, the segment S1 is transferred.

【0109】候補パス作成部23aは、セグメントSk
+1が存在するか否かを判定する(図12のステップ6
5)。この場合はセグメントS1が存在するので、ステ
ップ71に移る。
[0109] The candidate path creation unit 23a calculates the segment Sk
It is determined whether or not +1 exists (step 6 in FIG. 12).
5). In this case, since the segment S1 exists, the process proceeds to step 71.

【0110】ステップ71では、セグメントSk+1を
候補パスPに加えて構成した列(セグメント列)のセグ
メント数が規定数以内か否かが判定される。この場合の
セグメント列のセグメント数は、S0およびS1の2個
であるから、規定数を満足するので、ステップ66に移
る。
In step 71, it is determined whether or not the number of segments of a column (segment column) formed by adding the segment Sk + 1 to the candidate path P is within a specified number. In this case, the number of segments in the segment row is two, S0 and S1, so that the specified number is satisfied.

【0111】ステップ66では、セグメントS1を候補
パスPに追加する処理がなされる。その結果、候補パス
P={S0,S1}になる。その後、ステップ67に移
る。
At step 66, processing for adding the segment S1 to the candidate path P is performed. As a result, the candidate path P = {S0, S1}. Thereafter, the process proceeds to step 67.

【0112】ステップ67では、今度は切り出し候補位
置C2を着目する切り出し候補位置Ciとみなす。すな
わち関数をFunct(C2,P)とする。そして、ス
テップ61の処理から処理を再開する。
In step 67, the cut candidate position C2 is regarded as the target cut candidate position Ci this time. That is, the function is set to Funct (C2, P). Then, the processing is restarted from the processing of step 61.

【0113】したがって、候補パス作成部23aは今度
は切り出し候補位置C2が最右端の切り出し候補位置か
否か(すなわちC2=C2か否か)を判定する(図12
のステップ61)。
Therefore, the candidate path creation unit 23a determines whether or not the cutout candidate position C2 is the rightmost cutout candidate position (ie, whether or not C2 = C2) (FIG. 12).
Step 61).

【0114】ここでC2は最右端の切り出し候補位置で
あるので、ステップ62の処理に移る。したがって、候
補パスP={S0,S1}が候補パスメモリ(図示せ
ず)に記録される。これにより、始点がC0で、終点が
C2で、かつ、セグメント数が規定数以下である候補パ
スの1つとして、候補パスP={S0,S1}が作成さ
れる。また、ここまでの処理により、関数Funct
(C2,P)の処理が終了する。
Since C2 is the rightmost cut-out candidate position, the process proceeds to step 62. Therefore, the candidate path P = {S0, S1} is recorded in the candidate path memory (not shown). As a result, a candidate path P = {S0, S1} is created as one of the candidate paths whose start point is C0, whose end point is C2, and whose number of segments is equal to or less than the specified number. Also, by the processing up to this point, the function Funct
The processing of (C2, P) ends.

【0115】この候補パスP={S0,S1}は、第4
の手段および第5の手段が動作した結果作成された候補
パスである。すなわちステップ66、67の処理が済ん
だ結果作成された候補パスである。そこで、今度は、ス
テップ68に移る。このステップ68では、候補パスP
={S0,S1}から、これに最新に追加されたセグメ
ントS1を削除する処理をする。この結果、候補パスP
={S0}になる。
This candidate path P = {S0, S1} is the fourth
And candidate paths created as a result of the operation of the fifth means and the fifth means. That is, it is a candidate path created as a result of the processing of steps 66 and 67. Therefore, the process proceeds to step 68. In this step 68, the candidate path P
= S0, S1}, the segment S1 newly added to this is deleted. As a result, the candidate path P
= {S0}.

【0116】次に、j=j+1とする(図12のステッ
プ69)。ここで現在のjは2であるので、j=2+1
=3となる。
Next, j = j + 1 is set (step 69 in FIG. 12). Here, the current j is 2, so j = 2 + 1
= 3.

【0117】次に、jが最大切り出し候補位置か否か
(j>mか否か)を判定する(図12のステップ7
0)。
Next, it is determined whether or not j is the maximum clipping candidate position (whether or not j> m) (step 7 in FIG. 12).
0).

【0118】この場合のj=3は、最大切り出し候補位
置2を越えているので、関数Funct(C1,P)の
処理が終了する。そこで、今度は元の関数であるFun
ct(C0,P)についてステップ68からの処理をす
る。
Since j = 3 in this case exceeds the maximum cutout candidate position 2, the processing of the function Funct (C1, P) is completed. Therefore, this time the original function Fun
The processing from step 68 is performed for ct (C0, P).

【0119】したがって、候補パスP={S0}から、
これに最新に追加されたセグメントS0を削除する処理
をする。この結果、候補パスP={ }=0になる。
Accordingly, from the candidate path P = {S0},
Then, a process of deleting the segment S0 added most recently is performed. As a result, the candidate path P = {{} = 0.

【0120】次に、j=j+1とする(図12のステッ
プ69)。ここで現在のjは1であるので、j=1+1
=2となる。
Next, j = j + 1 is set (step 69 in FIG. 12). Here, the current j is 1, so j = 1 + 1
= 2.

【0121】次に、jが最大切り出し候補位置か否か
(j>mか否か)を判定する(図12のステップ7
0)。
Next, it is determined whether or not j is the maximum clipping candidate position (whether or not j> m) (step 7 in FIG. 12).
0).

【0122】この場合のj=2は、最大切り出し候補位
置2を越えていないので、ステップ64からの処理が行
なわれる。そのため、切り出し候補位置C0と切り出し
候補位置C2とに挟まれるセグメントSk+1が存在す
るか否かの判定がなされる。この場合のセグメントSk
+1として、セグメントS2が存在するので(図13参
照)、候補パスPにセグメントS2を加えたセグメント
列のセグメント数が規定数以内か否かを判定する。
Since j = 2 in this case does not exceed the maximum clipping candidate position 2, the processing from step 64 is performed. Therefore, it is determined whether or not there is a segment Sk + 1 sandwiched between the extraction candidate position C0 and the extraction candidate position C2. Segment Sk in this case
Since the segment S2 exists as +1 (see FIG. 13), it is determined whether or not the number of segments in the segment string obtained by adding the segment S2 to the candidate path P is within a specified number.

【0123】このセグメント列のセグメントはS2だけ
であるので、規定数3以内を満足する。したがって候補
パスPにセグメントS2を加える。その結果、候補パス
P={S2}になる。その後、ステップ67に移る。
Since the segment of this segment row is only S2, it satisfies the specified number 3 or less. Therefore, the segment S2 is added to the candidate path P. As a result, the candidate path P = {S2}. Thereafter, the process proceeds to step 67.

【0124】この場合のCjは2になっているので、こ
のステップ67では、今度は切り出し候補位置C2を着
目する切り出し候補位置Ciとみなす。すなわち関数を
Funct(C2,P)とする。そして、ステップ61
の処理から処理を再開する。
Since Cj in this case is 2, in this step 67, the extraction candidate position C2 is regarded as the extraction candidate position Ci of interest. That is, the function is set to Funct (C2, P). And step 61
Processing is restarted from the processing of.

【0125】したがって、候補パス作成部23aは今度
は切り出し候補位置C2が最右端の切り出し候補位置か
否か(すなわちC2=C2か否か)を判定する(図12
のステップ61)。
Therefore, the candidate path creating section 23a determines whether or not the cutout candidate position C2 is the rightmost end cutout candidate position (ie, whether or not C2 = C2) (FIG. 12).
Step 61).

【0126】ここでC2は最右端の切り出し候補位置で
あるので、ステップ62の処理に移る。したがって、候
補パスP={S2}が候補パスメモリ(図示せず)に記
録される。これにより、始点がC0で、終点がC2で、
かつ、セグメント数が規定数以下である候補パスの1つ
として、候補パスP={S2}が作成される。また、こ
こまでの処理で関数Funct(C2,P)についての
処理が終了する。
Since C2 is the rightmost cut-out candidate position, the process proceeds to step 62. Therefore, the candidate path P = {S2} is recorded in the candidate path memory (not shown). Thus, the starting point is C0, the ending point is C2,
In addition, a candidate path P = {S2} is created as one of the candidate paths whose number of segments is equal to or less than the specified number. Further, the processing for the function Funct (C2, P) is completed by the processing up to this point.

【0127】この候補パスP={S2}は、第4の手段
および第5の手段が動作した結果作成された候補パスで
ある。すなわちステップ66、67の処理が済んだ結果
作成された候補パスである。そこで、今度は、ステップ
68に移る。このステップ68では、候補パスP={S
2}から、これに最新に追加されたセグメントS2を削
除する処理をする。この結果、候補パスP={ }=0
になる。
This candidate path P = {S2} is a candidate path created as a result of the operation of the fourth means and the fifth means. That is, it is a candidate path created as a result of the processing of steps 66 and 67. Therefore, the process proceeds to step 68. In this step 68, the candidate path P = {S
From 2}, processing is performed to delete the segment S2 that has been added to this most recently. As a result, the candidate path P = {{} = 0
become.

【0128】次に、j=j+1とする(図12のステッ
プ69)。ここで現在のjは2であるので、j=2+1
=3となる。
Next, j = j + 1 is set (step 69 in FIG. 12). Here, the current j is 2, so j = 2 + 1
= 3.

【0129】次に、jが最大切り出し候補位置か否か
(j>mか否か)を判定する(図12のステップ7
0)。
Next, it is determined whether or not j is the maximum clipping candidate position (whether or not j> m) (step 7 in FIG. 12).
0).

【0130】この場合のj=3は、最大切り出し候補位
置2を越えているので、関数Funct(C0,P)の
処理が終了する。
Since j = 3 in this case exceeds the maximum clipping candidate position 2, the processing of the function Funct (C0, P) ends.

【0131】この図12を用い説明した処理は、再帰的
アルゴリズムと呼ばれる処理である。文字列の左端のセ
グメントから、右端のセグメントまでを順に再帰的に辿
ることができる処理である。
The process described with reference to FIG. 12 is a process called a recursive algorithm. This is a process capable of recursively tracing from the leftmost segment of the character string to the rightmost segment.

【0132】この処理に従えば、C0を開始点とするセ
グメントが全て抽出される。しかも、この抽出されたセ
グメントの修了点が開始点となって連接する他のセグメ
ントがさらに順次に抽出される。しかも、C0を開始点
としかつC2を終了点とし然もセグメント数が規定数以
下であるセグメント列(1個のセグメントの場合も含
む)で構成される候補パスが容易に作成される。
According to this process, all segments starting from C0 are extracted. In addition, other connected segments with the end point of the extracted segment as a starting point are further sequentially extracted. In addition, a candidate path composed of a sequence of segments (including one segment) whose start point is C0 and whose end point is C2 and whose number of segments is equal to or less than a specified number is easily created.

【0133】この図12を用いて説明した処理を、図2
に示した原画像データ31についての1次セグメントS
0〜S5および2次セグメントS6〜S14に適用して
候補パスを作成すると、図14に示したように、[1]
〜[17]の合計17個の候補パスが作成される。ただ
し、候補パスを構成するセグメント数の規定数は4とし
て候補パスを作成した場合である。
The processing described with reference to FIG.
The primary segment S of the original image data 31 shown in FIG.
When candidate paths are created by applying the candidate paths to 0 to S5 and the secondary segments S6 to S14, as shown in FIG.
To [17], a total of 17 candidate paths are created. However, this is the case where the specified number of segments constituting the candidate path is 4 and the candidate path is created.

【0134】この図14から分かるように、切り出し候
補位置C0が切り出し開始点となっているセグメントS
0、S6、S7各々を頂点として、これらセグメントに
ツリー状に連接するセグメントで構成される候補パスが
作成される。ただし各候補パスでは、右端のセグメント
が、切り出し候補点C6を終了点とするセグメント(具
体的にはS13、S14、S15のいずれか)となって
いる。しかも、各候補パスを構成するセグメント数は規
定数以下(ここでは4以下)となっている。
As can be seen from FIG. 14, the segment S where the extraction candidate position C0 is the extraction start point
With 0, S6, and S7 as vertices, candidate paths composed of segments connected to these segments in a tree shape are created. However, in each candidate path, the segment at the right end is a segment (specifically, one of S13, S14, and S15) ending at the cutout candidate point C6. Moreover, the number of segments constituting each candidate path is equal to or less than a specified number (here, equal to or less than 4).

【0135】この図14に示した17個の候補パスから
単語を作成する原理を、図15に示した。
FIG. 15 shows the principle of creating a word from the 17 candidate paths shown in FIG.

【0136】ただし、この図15では、17個の候補パ
スのうちの、候補パス[1]、候補パス[2]、候補パ
ス[3]および候補パス[17]それぞれから単語を作
成する例を示してある。
However, FIG. 15 shows an example in which a word is created from each of candidate path [1], candidate path [2], candidate path [3] and candidate path [17] among the 17 candidate paths. Is shown.

【0137】この図15において候補パス[1]は、図
14を用い説明した通り、セグメントS0、S1、S2
およびS13で構成される。またここで、セグメントS
0、S1、S2各々の認識結果は、図8、図9(A)、
(B)に示したように、1個のみであってそれぞれ
「1」である。そこで、図15の候補パス[1]の欄の
セグメントS0、S1、S2の位置には、候補文字とし
てそれぞれ「1(1)」が入る。一方、セグメントS1
3の認識結果は、図11(B)に示したように、第1位
〜第10位まで合計10個ある。そこで図15の候補パ
ス[1]の欄のセグメントS13の位置には、候補文字
として「川(1)」・・・ル(10)」という各候補文
字が入る。したがって、この候補パス[1]からは、
『111川』・・・『111ル』までの10個の単語が
作成される。以下同様にして、候補パス[2]、候補パ
ス[3]、・・・、候補パス[17]から候補単語が作
成できる。
In FIG. 15, the candidate path [1] includes segments S0, S1, S2 as described with reference to FIG.
And S13. Also, here, segment S
The recognition results of each of 0, S1, and S2 are shown in FIGS.
As shown in (B), there is only one and each is “1”. Therefore, “1 (1)” is entered as a candidate character in each of the positions of the segments S0, S1, and S2 in the column of the candidate path [1] in FIG. On the other hand, segment S1
As shown in FIG. 11B, there are a total of ten recognition results for the first to tenth places. Therefore, at the position of the segment S13 in the column of the candidate path [1] in FIG. 15, each candidate character such as “kawa (1)”... Therefore, from this candidate path [1],
"111 river" ... ten words up to "111 le" are created. Similarly, a candidate word can be created from the candidate path [2], the candidate path [3],..., The candidate path [17].

【0138】単語照合部25は、単語作成部23で作成
された単語を単語辞書(図示せず)と照合する。単語照
合部25は、単語照合の結果単語辞書に候補パスで示す
単語が存在しなければ、その候補パスの評価値として
「0」を格納し、一方、候補パスで示す単語が存在して
いれば、その候補パスの評価値として「1」を格納す
る。
The word matching section 25 checks the word created by the word creating section 23 against a word dictionary (not shown). The word matching unit 25 stores “0” as an evaluation value of the candidate path if the word indicated by the candidate path does not exist in the word dictionary as a result of the word matching. For example, "1" is stored as the evaluation value of the candidate path.

【0139】例えば図15に示した例の場合は、候補パ
ス[1]の欄の「111川」という単語から候補パス
[3]の欄の「11リ1」という単語まで、および候補
パス[17]の欄の「州ル」という単語は、いずれも単
語辞書に存在しない。したがって、これら各候補パスの
評価値として「0」を格納する。これに対し、候補パス
[17]の欄の「小川」という単語は単語辞書に存在す
る。したがって、この候補パスの評価値として「1」を
格納する。
For example, in the case of the example shown in FIG. 15, from the word “111 river” in the column of the candidate path [1] to the word “11” in the column of the candidate path [3], and from the candidate path [1]. 17] does not exist in the word dictionary. Therefore, “0” is stored as the evaluation value of each of these candidate paths. On the other hand, the word "Ogawa" in the column of the candidate path [17] exists in the word dictionary. Therefore, “1” is stored as the evaluation value of this candidate path.

【0140】結果選択部27は、単語照合の結果に基づ
いて、候補パスを構成している1次セグメントおよびま
たは2次セグメントのうちのいずれかを、1文字分の文
字切り出し領域と決定する。ここでは単語照合の最も評
価値の良い候補パスの各セグメントを切り出し領域とす
る。図15の例でいえば、候補パス[17]における
「小(1)川(1)」という候補パスを構成しているセ
グメントS7とセグメントS13とを、それぞれ文字切
り出し領域とする。
The result selecting section 27 determines one of the primary segment and the secondary segment constituting the candidate path as a character cutout area for one character based on the result of the word collation. Here, each segment of the candidate path having the best evaluation value in word matching is set as a cutout area. In the example of FIG. 15, the segments S7 and S13 constituting the candidate path "Small (1) river (1)" in the candidate path [17] are each character extraction regions.

【0141】結果出力部29は、結果選択部27で決定
された文字切り出し領域に対応する切り出し候補位置を
例えば制御部11に出力する。図15の例でいえば、C
0、C3およびC6それぞれが文字切り出し候補位置と
して制御部11に出力される。制御部11はこの結果に
基づいて文字切り出しを指示することができる。
The result output unit 29 outputs a cutout candidate position corresponding to the character cutout area determined by the result selection unit 27 to, for example, the control unit 11. In the example of FIG. 15, C
0, C3, and C6 are output to the control unit 11 as character extraction candidate positions. The control unit 11 can instruct character cutout based on the result.

【0142】なお、単語照合の結果において評価値が
「1」である候補パスが複数出現した場合は、例えば、
認識結果での候補順位に着目し候補順位が高い認識結果
で構成された単語を選択する等、第2の評価法、第3の
評価法等に従い、文字切り出しの規準となる単語を決定
すれば良い。
When a plurality of candidate paths having an evaluation value of “1” appear in the result of word matching, for example,
According to the second evaluation method, the third evaluation method, or the like, a word to be a criterion for character segmentation is determined, such as selecting a word composed of a recognition result having a high candidate rank by focusing on the candidate rank in the recognition result. good.

【0143】上述においてはこの発明の実施の形態につ
いて説明した。しかしこの発明は上述の実施の形態に何
ら限定されるものではなく、多くの変形または変更を行
なうことが出来る。
The embodiment of the present invention has been described above. However, the present invention is not limited to the above-described embodiment, and many modifications or changes can be made.

【0144】例えば、上述の実施の形態では、文字数を
規定する際、規準値以下という規定をしていた。しか
し、規準値としてT1およびT2(T1<T2)という
ように2つの規準値を設ける。そして、T1<文字数
(実施の形態でいえばセグメント数)<T2というよう
に、文字数を規制しても良い。こうすると、候補パスの
下限側の数も制約できるので、候補パス数をさらに減ら
すことができる。そのため、単語作成処理等の処理量を
さらに低減することができる。
For example, in the above-described embodiment, when defining the number of characters, the number of characters is defined to be equal to or less than the reference value. However, two reference values such as T1 and T2 (T1 <T2) are provided as reference values. The number of characters may be restricted such that T1 <number of characters (in the embodiment, the number of segments) <T2. In this case, the number of candidate paths on the lower limit side can be restricted, so that the number of candidate paths can be further reduced. Therefore, the amount of processing such as word creation processing can be further reduced.

【0145】[0145]

【発明の効果】上述した説明から明らかなように、この
出願の文字切り出し方法の発明によれば、メモリに格納
されている文字列についての画像データを含む原画像デ
ータから、黒ビットの塊領域である1次セグメントをそ
れぞれ抽出する処理と、抽出された各1次セグメントを
所定規則に従い統合して2次セグメントを作成する処理
と、各1次セグメントおよび各2次セグメントそれぞれ
を文字認識する処理と、該文字認識により得られる1次
セグメントおよび2次セグメントそれぞれの候補文字コ
ードを組み合わせて単語を作成する処理と、前記作成さ
れた単語を単語辞書と照合する処理と、該単語照合の結
果に基づいて文字切り出し領域を決定する処理と、を含
む文字切り出し方法において、前記単語を構成する文字
数を規制して前記単語を作成する。そのため、単語作成
の際の計算対象から無駄な候補文字コードとその組み合
わせとを省くことができる。したがって、計算量の無駄
を省くことができるので、より効率的な文字切り出しを
行なうことができる。
As is apparent from the above description, according to the invention of the character extracting method of this application, a black bit block area is obtained from the original image data including the image data of the character string stored in the memory. , A process of integrating the extracted primary segments according to a predetermined rule to create a secondary segment, and a process of recognizing each primary segment and each secondary segment with a character. A process of creating a word by combining candidate character codes of the primary segment and the secondary segment obtained by the character recognition; a process of matching the created word with a word dictionary; Determining a character cut-out area based on the number of characters constituting the word by controlling the number of characters constituting the word. To create a word. Therefore, useless candidate character codes and combinations thereof can be omitted from the calculation target when creating words. Therefore, it is possible to eliminate the waste of the calculation amount, and it is possible to perform more efficient character segmentation.

【0146】また、この出願の文字切り出し装置の発明
によれば、上述した文字切り出し方法の発明を容易に実
施することができる。
Further, according to the invention of the character extracting device of this application, the invention of the above-described character extracting method can be easily implemented.

【図面の簡単な説明】[Brief description of the drawings]

【図1】実施の形態の文字切り出し装置の説明図であ
る。
FIG. 1 is an explanatory diagram of a character cutout device according to an embodiment.

【図2】1次セグメントと切り出し候補位置とを説明す
る図である。
FIG. 2 is a diagram for explaining a primary segment and a clipping candidate position.

【図3】(A)および(B)は、統合前のセグメント座
標テーブルの例を示した図である。
FIGS. 3A and 3B are diagrams showing examples of a segment coordinate table before integration.

【図4】セグメント統合部の説明図である。FIG. 4 is an explanatory diagram of a segment integration unit.

【図5】2次セグメント作成手順の説明図である。FIG. 5 is an explanatory diagram of a secondary segment creation procedure.

【図6】統合後のセグメント座標テーブルの例を示した
図である。
FIG. 6 is a diagram showing an example of a segment coordinate table after integration.

【図7】統合後のセグメントテーブルの例を示した図で
ある。
FIG. 7 is a diagram showing an example of a segment table after integration.

【図8】認識結果の一例(その1)を示した図であり、
セグメントS0の認識結果を示した図である。
FIG. 8 is a diagram showing an example (part 1) of a recognition result;
FIG. 9 is a diagram showing a recognition result of a segment S0.

【図9】(A)〜(E)は、認識結果の一例(その2)
を示した図であり、セグメントS1〜S5の認識結果を
それぞれ示した図である。
FIGS. 9A to 9E are examples of recognition results (part 2); FIGS.
And is a diagram showing recognition results of the segments S1 to S5, respectively.

【図10】(A)〜(C)は、認識結果の一例(その
3)を示した図であり、セグメントS6、S7、S11
の認識結果をそれぞれ示した図である。
FIGS. 10A to 10C are diagrams illustrating an example (part 3) of a recognition result, and include segments S6, S7, and S11.
It is the figure which showed each recognition result.

【図11】(A)〜(C)は、認識結果の一例(その
4)を示した図であり、セグメントS12、S13、S
14の認識結果をそれぞれ示した図である。
FIGS. 11A to 11C are diagrams illustrating an example (part 4) of a recognition result, and include segments S12, S13, and S.
It is the figure which showed each of 14 recognition results.

【図12】候補パス作成部および文字数規則検査部の説
明図である。
FIG. 12 is an explanatory diagram of a candidate path creation unit and a character number rule checking unit.

【図13】候補パス作成処理の具体例の説明図である。FIG. 13 is an explanatory diagram of a specific example of a candidate path creation process.

【図14】候補パスの説明図であり、図2に示した原画
像データから規定数を4として作成される候補パスの説
明図である。
14 is an explanatory diagram of a candidate path, and is an explanatory diagram of a candidate path created from the original image data shown in FIG. 2 with a specified number of 4; FIG.

【図15】候補パスから単語を作成する原理の説明図で
ある。
FIG. 15 is an explanatory diagram of the principle of creating a word from a candidate path.

【符号の説明】[Explanation of symbols]

10:実施の形態の文字切り出し装置 11:制御部 13:画像入力部 15:文字数規則入力部 17:セグメント抽出部 19:セグメント統合部 21:文字認識部 23:単語作成部 23a:候補パス作成部 23b:文字数規則検査部 25:単語照合部 27:結果選択部 29:結果出力部 S0〜S5:セグメント(1次セグメント) S6〜S14:セグメント(2次セグメント) C0〜C6:切り出し候補位置 51:候補文字の集合 10: Character extraction device of embodiment 11: Control unit 13: Image input unit 15: Character number rule input unit 17: Segment extraction unit 19: Segment integration unit 21: Character recognition unit 23: Word creation unit 23a: Candidate path creation unit 23b: Character number rule checking unit 25: Word matching unit 27: Result selecting unit 29: Result output unit S0 to S5: Segment (primary segment) S6 to S14: Segment (secondary segment) C0 to C6: Cutout candidate position 51: Set of candidate characters

Claims (9)

【特許請求の範囲】[Claims] 【請求項1】 メモリに格納されている文字列について
の画像データを含む原画像データから、黒ビットの塊領
域である1次セグメントをそれぞれ抽出する処理と、抽
出された各1次セグメントを所定規則に従い統合して2
次セグメントを作成する処理と、各1次セグメントおよ
び各2次セグメントそれぞれを文字認識する処理と、該
文字認識により得られる1次セグメントおよび2次セグ
メントそれぞれの候補文字コードを組み合わせて単語を
作成する処理と、前記作成された単語を単語辞書と照合
する処理と、該単語照合の結果に基づいて前記各1次セ
グメントおよび前記各2次セグメントのうちのいずれか
を1文字分の文字切り出し領域と決定する処理と、を含
む文字切り出し方法において、 前記単語を構成する文字数を規制して前記単語を作成す
ることを特徴とする文字切り出し方法。
1. A process for extracting primary segments each of which is a black bit lump area from original image data including image data of a character string stored in a memory, and extracting each of the extracted primary segments by a predetermined process. Integrate according to the rules 2
A word is created by combining a process of creating a next segment, a process of character recognition of each primary segment and each secondary segment, and a candidate character code of each of the primary segment and secondary segment obtained by the character recognition. Processing, processing of matching the created word with a word dictionary, and extracting one of the primary segments and the secondary segments based on the result of the word matching into a character cutout area for one character. Determining the number of characters constituting the word, and creating the word.
【請求項2】 請求項1に記載の文字切り出し方法にお
いて、 前記文字数を規制するための基準値を、文字認識対象と
なる分野に応じ決めることを特徴とする文字切り出し方
法。
2. The character extracting method according to claim 1, wherein a reference value for regulating the number of characters is determined according to a field to be recognized.
【請求項3】 請求項1に記載の文字切り出し方法にお
いて、 前記2次セグメントは、文字の並ぶ方向をX方向とした
とき該X方向に連続しているm個の1次セグメントを所
定規則に従い統合することで作成し、 前記単語は、前記1次セグメントおよびまたは2次セグ
メントの連接で表される候補パスであって以下の(a) 〜
(d) の処理を含む処理により作成される候補パスに基づ
いて作成することを特徴とする文字切り出し方法(ただ
し、mは2以上の整数)。 (a) 前記m個の1次セグメントそれぞれを前記X方向で
区分けする座標を、切り出し候補位置Ci(i=0〜
m)としたとき、前記m個の1次セグメントおよび前記
作成した2次セグメントの中から、切り出し候補位置C
0が切り出し開始点となっているセグメントをすべて抽
出する処理。 (b) 前記(a) の処理にて抽出されたセグメントそれぞれ
について、そのセグメントの終了点側の切り出し候補位
置Cj(j=1〜m)が切り出し開始位置となっている
ため連接することができる他のセグメント、該他のセグ
メントに前記と同様な切り出し候補位置の関係となって
いるためさらに連接することができる他のセグメント
を、終了点側の切り出し候補位置がCmとなっている他
のセグメントが出現するまで、前記m個の1次セグメン
トおよび前記作成した2次セグメントの中から抽出する
処理。 (c) 前記(b) の処理において前記他のセグメントを抽出
する度に、該他のセグメントまでで構成される候補パス
のセグメント数が規定数以内か否かを判定する処理。 (d) セグメント数が前記規定数以内の候補パスで、か
つ、候補パス中の最終セグメントの終了点側切り出し候
補位置がCmとなっている候補パスを、単語作成のため
の候補パスとする処理。
3. The character segmenting method according to claim 1, wherein the secondary segment is defined as follows: when the direction in which characters are arranged is the X direction, m primary segments that are continuous in the X direction are determined according to a predetermined rule. The word is a candidate path represented by the concatenation of the primary segment and / or the secondary segment, and the following words (a) to
A character segmentation method (where m is an integer of 2 or more), which is created based on a candidate path created by a process including the process (d). (a) Coordinates for dividing each of the m primary segments in the X direction are determined as candidate clipping positions Ci (i = 0 to 0).
m), from among the m primary segments and the created secondary segment, a cutout candidate position C
A process of extracting all the segments for which 0 is the extraction start point. (b) With respect to each of the segments extracted in the process (a), the segmentation candidate position Cj (j = 1 to m) on the end point side of the segment is the segmentation start position, so that the segments can be connected. Other segments which have the same relationship with the other segment and have the same candidate clipping position as described above, and which can be further connected to each other, are replaced by other segments whose candidate candidate positions on the end point side are Cm. A process of extracting from the m primary segments and the created secondary segments until appears. (c) A process of determining whether or not the number of segments of a candidate path including the other segment is within a specified number every time the other segment is extracted in the process of (b). (d) A process in which a candidate path having a number of segments within the specified number and a candidate position for extracting the end point of the last segment in the candidate path being Cm is set as a candidate path for word creation. .
【請求項4】 請求項1に記載の文字切り出し方法にお
いて、 前記2次セグメントは、文字の並ぶ方向をX方向とした
とき該X方向に連続しているm個の1次セグメントを所
定規則に従い統合することで作成し、 前記単語は、前記1次セグメントおよびまたは2次セグ
メントの連接で表される候補パスであって以下の(1) 〜
(9) の処理を含む処理により作成される候補パスに基づ
いて作成することを特徴とする文字切り出し方法(ただ
し、mは2以上の整数)。 (1) 前記m個の1次セグメントそれぞれを前記X方向で
区分けする座標を、切り出し候補位置C0〜Cmとした
とき、着目した切り出し候補位置Ci(i=0〜m)が
Cmか否かを判定する第1の処理。 (2) 前記第1の処理でCi=Cmと判定された場合に実
行され、現在の候補パスを候補パスメモリに記録する第
2の処理。 (3) 前記第1の処理でCi≠Cmと判定された場合に実
行され、切り出し候補位置Ciと切り出し候補位置Cj
(j=i+1)とに挟まれるセグメントSk+1が存在
するか否かを判定する第3の処理。 (4) 前記第3の処理でセグメントが存在すると判定され
た場合に実行され、前記セグメントSk+1を候補パス
に加えた場合に該候補パスのセグメント数が規定数を越
えないか否かを判定する第4の処理。 (5) 前記第4の処理で規定数以内と判定された場合に実
行され、前記セグメントSk+1を前記候補パスに追加
する第5の処理。 (6) 前記第5の処理に続いて実行され、前記切り出し候
補位置Cjを前記着目した切り出し候補位置Ciとみな
して、前記第1の処理から再実行する第6の処理。 (7) 前記第5の処理と前記第6の処理とを実行して作成
された候補パスについては、該候補パスに最新に追加さ
れたセグメントを該候補パスから削除する第7の処理。 (8) 前記第3の処理で否と判定された場合、または前記
第4の処理で否と判定された場合、または前記第7の処
理が実行された場合に実行され、前記切り出し候補位置
を規定しているjをj=j+1に変更し、かつ、変更し
たjが前記mとの関係でj>mを満たすか否かを判定す
る第8の処理。 (9) 前記第8の処理でj≦mと判定された場合に実行さ
れ、前記第3の処理から再実行する第9の処理。
4. The character segmentation method according to claim 1, wherein, when the direction in which characters are arranged is the X direction, m secondary segments that are continuous in the X direction are determined according to a predetermined rule. The word is a candidate path represented by the concatenation of the primary segment and / or the secondary segment, and is expressed by the following (1) to
A character segmentation method characterized by being created based on a candidate path created by a process including the process (9) (where m is an integer of 2 or more). (1) When coordinates for partitioning each of the m primary segments in the X direction are set as candidate clipping positions C0 to Cm, it is determined whether or not the focused candidate clipping position Ci (i = 0 to m) is Cm. First processing for determination. (2) A second process that is executed when it is determined that Ci = Cm in the first process, and records the current candidate path in the candidate path memory. (3) This is executed when it is determined that Ci ≠ Cm in the first processing, and the extraction candidate position Ci and the extraction candidate position Cj
Third processing for determining whether or not a segment Sk + 1 sandwiched between (j = i + 1) exists. (4) This is executed when it is determined that a segment exists in the third processing, and when the segment Sk + 1 is added to a candidate path, it is determined whether or not the number of segments of the candidate path does not exceed a specified number. Fourth processing. (5) A fifth process which is executed when it is determined in the fourth process that the number is within the specified number, and adds the segment Sk + 1 to the candidate path. (6) A sixth process which is executed subsequent to the fifth process, and regards the clipping candidate position Cj as the focused clipping candidate position Ci and re-executes the first process. (7) A seventh process of deleting, from the candidate path, a segment that is most recently added to the candidate path for a candidate path created by executing the fifth process and the sixth process. (8) This is executed when it is determined to be no in the third process, or when it is determined to be no in the fourth process, or when the seventh process is executed, and the cutout candidate position is determined. An eighth process of changing the specified j to j = j + 1 and determining whether the changed j satisfies j> m in relation to the m. (9) A ninth process that is executed when j ≦ m is determined in the eighth process, and is executed again from the third process.
【請求項5】 請求項1、3または4に記載の文字切り
出し方法において、 1次セグメントを統合するときの前記所定規則として、 文字の並ぶ方向をX方向としたとき、該X方向に連続し
ているm個の1次セグメントのうちの高さが最高のセグ
メントの当該高さHを求め、かつ、 着目する1次セグメントに対しX方向でH×Nの座標範
囲に存在する他の1次セグメントを該着目する1次セグ
メントに統合するという規則を用いることを特徴とする
文字切り出し方法(ただしNは予め定めた値である)。
5. The character segmenting method according to claim 1, wherein the predetermined rule for integrating the primary segments is that, when the direction in which the characters are arranged is the X direction, The height H of the segment having the highest height among the m primary segments is determined, and the other primary segments existing in the H × N coordinate range in the X direction with respect to the primary segment of interest are obtained. A character segmentation method using a rule of integrating segments into the primary segment of interest (where N is a predetermined value).
【請求項6】 請求項1に記載の文字切り出し方法にお
いて、 前記文字列が手書き文字を含む文字列であることを特徴
とする文字切り出し方法。
6. The character extracting method according to claim 1, wherein the character string is a character string including a handwritten character.
【請求項7】 メモリに格納されている文字列について
の画像データを含む入力画像データから、黒ビットの塊
領域である1次セグメントをそれぞれ抽出するセグメン
ト抽出部と、抽出された各1次セグメントを所定規則に
従い統合し2次セグメントを作成するセグメント統合部
と、各1次セグメントおよび各2次セグメントそれぞれ
を文字認識する文字認識部と、該文字認識により得られ
る1次セグメントおよびまたは2次セグメントそれぞれ
の候補文字コードを組み合わせて単語を作成する単語作
成部と、前記作成された単語を単語辞書と照合する単語
照合部と、該単語照合の結果に基づいて前記各1次セグ
メントおよび前記各2次セグメントのうちのいずれかを
1文字分の文字切り出し領域と決定する結果選択部と、
を具える文字切り出し装置において、 前記単語作成部に、単語を構成する文字数を規制するた
めの文字数規則検査部を具えたことを特徴とする文字切
り出し装置。
7. A segment extraction unit for extracting a primary segment, which is a block area of black bits, from input image data including image data of a character string stored in a memory, and each extracted primary segment. A segment integrating unit that creates a secondary segment by integrating the primary segment and the secondary segment according to predetermined rules, a character recognizing unit that recognizes each primary segment and each secondary segment, and a primary segment and / or a secondary segment obtained by the character recognition. A word creating unit that creates a word by combining the candidate character codes; a word matching unit that matches the created word with a word dictionary; and the primary segment and the 2nd segment based on the result of the word matching. A result selection unit for determining any one of the next segments as a character cutout area for one character;
A character segmentation device comprising: a character number regulation inspection unit for regulating the number of characters constituting a word in the word creation unit.
【請求項8】 請求項7に記載の文字切り出し装置にお
いて、 前記セグメント統合部として、文字の並ぶ方向をX方向
としたとき該X方向に連続しているm個の1次セグメン
トを所定規則に従い統合するセグメント統合部を具え、 前記単語作成部を、 (A)以下の(1) 〜(8) の手段を含み前記1次セグメン
トおよびまたは2次セグメントの連接で表される候補パ
スを作成する候補パス作成部と、 (B)該候補パス作成部に含まれる第3の手段でセグメ
ントが存在すると判定された場合に動作し、セグメント
Sk+1を候補パスに加えた場合に該候補パスのセグメ
ント数が規定数を越えないか否かを判定することで前記
文字数を規制する文字数規則検査部とで構成したことを
特徴とする文字切り出し装置(ただし、mは2以上の整
数)。 (1) 前記m個の1次セグメントそれぞれを前記X方向で
区分けする座標を、切り出し候補位置C0〜Cmとした
とき、着目した切り出し候補位置Ci(i=0〜m)が
Cmか否かを判定する第1の手段。 (2) 前記第1の手段でCi=Cmと判定された場合に動
作し、現在の候補パスを候補パスメモリに記録する第2
の手段。 (3) 前記第1の手段でCi≠Cmと判定された場合に動
作し、切り出し候補位置Ciと切り出し候補位置Cj
(j=i+1)とに挟まれるセグメントSk+1が存在
するか否かを判定する第3の手段。 (4) 前記文字数規則検査部で規定数以内と判定された場
合に動作し、前記セグメントSk+1を前記候補パスに
追加する第4の手段。 (5) 前記第4の手段に続いて動作し、前記切り出し候補
位置Cjを前記着目した切り出し候補位置Ciとみなし
て、前記第1の手段の動作を開始させる第5の手段。 (6) 前記第4の手段および前記第5の手段が動作した結
果作成された候補パスについては、該候補パスに最新に
追加されたセグメントを該候補パスから削除する第6の
手段。 (7) 前記第3の手段が否と判定した場合、または前記文
字数規則検査部が規定数を越えると判定した場合、また
は前記第6の手段が動作した後に動作し、前記切り出し
候補位置を規定しているjをj=j+1に変更し、か
つ、変更したjが前記mとの関係でj>mを満たすか否
かを判定する第7の手段。 (8) 前記第7の手段がj≦mと判定した場合に動作し、
前記第3の手段を動作させる第8の手段。
8. The character segmenting device according to claim 7, wherein, when the direction in which characters are arranged is the X direction, m segment segments that are continuous in the X direction are defined as the segment integrating unit according to a predetermined rule. A segment integrating unit for integrating, the word generating unit includes: (A) generating a candidate path represented by a concatenation of the primary segment and / or the secondary segment including the following means (1) to (8): (B) operates when the third means included in the candidate path creation unit determines that a segment exists, and when the segment Sk + 1 is added to the candidate path, the number of segments of the candidate path A character cutout device (where m is an integer of 2 or more), comprising a character number rule checker that controls the number of characters by determining whether the number does not exceed a prescribed number. (1) When coordinates for partitioning each of the m primary segments in the X direction are set as candidate clipping positions C0 to Cm, it is determined whether or not the focused candidate clipping position Ci (i = 0 to m) is Cm. First means for determining. (2) The second operation is performed when the first means determines that Ci = Cm, and records the current candidate path in the candidate path memory.
Means. (3) The first means operates when it is determined that Ci ≠ Cm, and the cut-out candidate position Ci and the cut-out candidate position Cj
Third means for determining whether or not a segment Sk + 1 sandwiched between (j = i + 1) exists. (4) A fourth means which operates when the number-of-characters rule checking unit determines that the number is within the specified number, and adds the segment Sk + 1 to the candidate path. (5) A fifth means which operates following the fourth means, and regards the cutout candidate position Cj as the focused cutout candidate position Ci, and starts the operation of the first means. (6) A sixth means for deleting, from the candidate path, a segment most recently added to the candidate path for the candidate path created as a result of the operation of the fourth means and the fifth means. (7) When the third means determines no, or when the character number rule checking unit determines that the number exceeds a specified number, or operates after the sixth means operates, and specifies the cutout candidate position. A seventh means for changing j being performed to j = j + 1 and determining whether or not the changed j satisfies j> m in relation to m. (8) operates when the seventh means determines that j ≦ m,
Eighth means for operating the third means.
【請求項9】 請求項7または8に記載の文字切り出し
装置において、 前記セグメント統合部は、 文字の並ぶ方向をX方向としたとき、該X方向に連続し
ているm個の1次セグメントのうちの高さが最高のセグ
メントの当該高さHを求める手段と、 着目する1次セグメントに対しX方向でH×Nの座標範
囲に存在する他の1次セグメントを該着目する1次セグ
メントに統合する手段とを含むことを特徴とする文字切
り出し装置(ただしNは予め定めた値である)。
9. The character segmenting device according to claim 7, wherein the segment integrating unit is configured to calculate m primary segments that are continuous in the X direction when a direction in which characters are arranged is the X direction. A means for calculating the height H of the segment having the highest height, and the other primary segments existing in the H × N coordinate range in the X direction with respect to the primary segment of interest as the primary segment of interest. A character extracting device (where N is a predetermined value).
JP9012875A 1997-01-27 1997-01-27 Method and device for segmenting character Withdrawn JPH10207985A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9012875A JPH10207985A (en) 1997-01-27 1997-01-27 Method and device for segmenting character

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9012875A JPH10207985A (en) 1997-01-27 1997-01-27 Method and device for segmenting character

Publications (1)

Publication Number Publication Date
JPH10207985A true JPH10207985A (en) 1998-08-07

Family

ID=11817609

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9012875A Withdrawn JPH10207985A (en) 1997-01-27 1997-01-27 Method and device for segmenting character

Country Status (1)

Country Link
JP (1) JPH10207985A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008066152A1 (en) * 2006-11-30 2008-06-05 Nec Corporation Document image feature value generating device, document image feature value generating method, and document image feature value generating program
CN103995816A (en) * 2013-02-14 2014-08-20 富士施乐株式会社 Information processing apparatus, information processing method

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008066152A1 (en) * 2006-11-30 2008-06-05 Nec Corporation Document image feature value generating device, document image feature value generating method, and document image feature value generating program
JPWO2008066152A1 (en) * 2006-11-30 2010-03-11 日本電気株式会社 Document image feature value generation apparatus, document image feature value generation method, and document image feature value generation program
CN103995816A (en) * 2013-02-14 2014-08-20 富士施乐株式会社 Information processing apparatus, information processing method
JP2014157409A (en) * 2013-02-14 2014-08-28 Fuji Xerox Co Ltd Information processor and information processing program
CN103995816B (en) * 2013-02-14 2018-10-02 富士施乐株式会社 Information processing equipment and information processing method

Similar Documents

Publication Publication Date Title
JP2726568B2 (en) Character recognition method and device
US8483499B2 (en) Image processing apparatus, image processing method, computer-readable medium and computer data signal
US6389166B1 (en) On-line handwritten Chinese character recognition apparatus
US20090208107A1 (en) Character recognition apparatus and character recognition method
JP6754120B2 (en) Programs, information storage media and character dividers
JP2001175811A (en) Device and method for word rough classification, and recording medium with recorded control program thereof
US6560359B2 (en) Data processing method and apparatus
JPH10207985A (en) Method and device for segmenting character
JPH08320914A (en) Table recognition method and device
JP2000090194A (en) Image processing method and image processor
JPH10240867A (en) Method and device for character segmentation
JP2842263B2 (en) Address reading device
JP4328511B2 (en) Pattern recognition apparatus, pattern recognition method, program, and storage medium
JP3848792B2 (en) Character string recognition method and recording medium
JPH0785221A (en) Method for separating and recognizing character and symbol in automatic drawing recognizing device
JPH0436885A (en) Optical character reader
JPS6118079A (en) Pattern separator
JP2993533B2 (en) Information processing device and character recognition device
KR100334624B1 (en) Clustering based document image segmentation method
JP2985243B2 (en) Character recognition method
JPH11203406A (en) Character segmenting method, character recognizing method, character recognition device, and recording medium
JPH04130979A (en) Character picture segmenting method
JPH11120291A (en) Pattern recognition system
JPH0348379A (en) Character recognizing system
JPH0832816A (en) Image compression method

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20040406