JPS5839378A - Post processing system for character recognition - Google Patents

Post processing system for character recognition

Info

Publication number
JPS5839378A
JPS5839378A JP56136144A JP13614481A JPS5839378A JP S5839378 A JPS5839378 A JP S5839378A JP 56136144 A JP56136144 A JP 56136144A JP 13614481 A JP13614481 A JP 13614481A JP S5839378 A JPS5839378 A JP S5839378A
Authority
JP
Japan
Prior art keywords
character
matching
word
recognition
register
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP56136144A
Other languages
Japanese (ja)
Other versions
JPH0119195B2 (en
Inventor
Hideaki Sugawara
菅原 秀明
Eiichiro Yamamoto
山本 栄一郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP56136144A priority Critical patent/JPS5839378A/en
Publication of JPS5839378A publication Critical patent/JPS5839378A/en
Publication of JPH0119195B2 publication Critical patent/JPH0119195B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

PURPOSE:To perform accurate post processing by weighting candidated characters according to their order and finding the matching with a word dictionary, and finding a word matched best. CONSTITUTION:Candidated characters recognized and outputted by a recognition part 1 are outputted to a character matrix register 5 in the order of the recognition. A matching circuit collates words read out of a word dictionary 8 with the 1st-5th order recognized candidated characters and when one of the candidated character matches with one of words held in the register 5, the matching level which corresponds to the order of recognition is outputted. A matching result output register 9 holds matching levels, the degree of coincidence, outputted from the circuit 7, corresponding to the words. A result decision circuit 10 outputs a word matched best to an output register 11 on the basis of the result of the matching by the circuit 7.

Description

【発明の詳細な説明】 本発明は文字認識後処理方式に関するものであって、特
に文字読取手段によ少入力された入力文字を文字辞書(
例えば漢字辞書)と文字認識処理を行ったのち認識結果
に対しその順位に応じて重みづけを行なって単語辞書と
のマツチングを行なうことにより、入力単語を正確に認
識できるよう忙した文字g繊後処理方弐に関するもので
ある。
DETAILED DESCRIPTION OF THE INVENTION The present invention relates to a character recognition post-processing method, and in particular, the present invention relates to a character recognition post-processing method.
After performing character recognition processing with a kanji dictionary (for example, a kanji dictionary), the recognition results are weighted according to their rankings and matched with a word dictionary, so that input words can be accurately recognized. This concerns the second processing method.

従来の文字認識方式では、例えば第1図に示す如く、I
I鐵部lにおりて入力文字の特徴抽出を行ないこれをフ
ァイルと比較してもっともM繊順位の高いものを出力レ
ジスタ2に出方し、その後、文字w1w&後処理として
この出力レジスタ2に出力された3ケの文字が都道府県
基を示すものであるとあらかじめわかっている場合にけ
、これらの出力された文字を都道府県辞書3と順次マツ
チング回路4にて比較を行ない入力文字を正確に認識す
るようkしている。
In conventional character recognition methods, for example, as shown in Figure 1, I
In the I iron section 1, the features of the input characters are extracted, compared with the file, and the one with the highest M fiber rank is output to the output register 2, and then output to this output register 2 as the character w1w & post-processing. If it is known in advance that the three characters shown represent the prefecture base, these output characters are sequentially compared with the prefecture dictionary 3 in the matching circuit 4 to accurately match the input characters. I'm trying to recognize it.

すなわち、第1図において、都道府県基の記入領斌に3
個の文字の記入されたデータ入力用紙(図示省略)を例
えばOCR(図示省略)で読取り、これにより得られ九
データにもとづき認識部1ではそれぞれに対する特徴抽
出にもとづき認錬順位のもっとも高い「宮」、「埼」、
「県」を出力レジスタ2に出力し、これらをマツチング
回路4において都道府県辞書3にセットされている都道
府県基と順次比較してその一致度のもっとも高い都道府
県基を読取出力として出力する本のである。
In other words, in Figure 1, 3 is entered in the prefecture-based entry column.
A data input form (not shown) on which characters have been written is read using OCR (not shown), and based on the nine data obtained, the recognition unit 1 extracts features for each character and selects the highest recognition rank. ”, “Sai”,
This book outputs "prefecture" to the output register 2, sequentially compares them with the prefecture base set in the prefecture dictionary 3 in the matching circuit 4, and outputs the prefecture base with the highest degree of matching as a read output. It is.

しかるにこのような後処理方式では、第1図に示す如く
、認識部1から「宮」、「埼」、「県」と出力され九こ
とにもとづき都道府県基とマツチングを行なったとき、
「宮崎系」と「宮城県」の2つが同−優先順位で存在す
ることになシ、自動的にこのいずれか一方を選択するこ
とができなかった。
However, in such a post-processing method, as shown in FIG. 1, when the recognition unit 1 outputs "Miya", "Sai", and "Prefecture" and matches them with the prefecture based on the nine,
Since ``Miyazaki-kei'' and ``Miyagi Prefecture'' exist with the same priority, it is not possible to automatically select one of them.

そのために、第2図に示す如く、認識部で入力文字を認
識するとき複数順位の候補文字を出力することが提案さ
れえ、認識部で3*字の都遍府県名を認識したとき第1
番目の文字について#i第2図に示す如く、第1順位が
「科」、第2顔位が「秩」、第3)@位が「秋」、第4
順位が「材」、第5順位が「林」であシ、第2番目の文
字については第1順位〜第5順位が「田」、「内」、「
口」、「円」、「由」であシ、第3番目の文字について
は第1順位〜第5願位が「具」、「県」、「目」、「且
」、「旦」の場合に、これらの各候補文字を都道府県基
と順次比較する。すなわち都道府県辞書3からgt番目
に「北海道」を読出し、その第1番目の文字「北」を前
記「科、秩、秋、材、林」と比較してマツチングをとる
。そして第2番目の文字「海」と前記「田、内、口、円
、由」と比較し、第3番目の文字「道」を前記「具、県
、目、且、旦」と比較しそれぞれ一致をとるがいずれも
不一致である1次に第2番目の単語「青森県」と同様な
マツチングを行なうが、第3番目の文字「県」が前記「
具、県、目、且、旦」と照合したとき第2願位の「県」
で一致が得られる。そして第3番目の単語「秋田系」と
マツチングを行なうとき、第1番目の文字「秋」と「科
、秩、秋、材、林」と照合して一致が得られ、同様に第
2番目の文字「田」と「田、内、口、円、由」と照合し
て一致が得られ、第3番目の文字「#」と「具、県、目
、且、旦」と照合してこれまた一致が得られる。
To this end, as shown in Figure 2, it may be proposed to output candidate characters of multiple ranks when the recognition unit recognizes an input character, and when the recognition unit recognizes the 3* character Tohenfuken name, the first
Regarding the #i character, as shown in Figure 2, the first rank is "Kana", the second rank is "Chichi", the third rank is "Autumn", and the fourth rank is "Ka".
The rank is "chi", the fifth rank is "bayashi", and for the second character, the first to fifth ranks are "ta", "uchi", "
For the third character, the 1st to 5th positions are ``gu'', ``prefecture'', ``me'', ``and'', and ``dan''. In this case, each of these candidate characters is sequentially compared with the prefecture base. That is, "Hokkaido" is read out gt-th from the prefectural dictionary 3, and the first character "Kita" is compared with the above-mentioned "Ke, Chichi, Autumn, Timber, Forest" to perform matching. Then, the second character ``Umi'' is compared with the above-mentioned ``田, 内, 口, EN, ゆ'', and the third character ``道'' is compared with the above-mentioned ``gu, prefecture, eye, and tan''. A match is made for each, but none of them match. First, the same matching is performed as for the second word "Aomori Prefecture", but the third character "Prefecture" is
When compared with ``gu, prefecture, eye, and dan'', the second choice is ``prefecture''.
A match is obtained. When matching the third word ``Akita-kei'', a match is obtained by matching the first character ``Autumn'' with ``Kana, Chichi, Autumn, Wood, Forest'', and similarly the second word ``Akita-kei''. A match was obtained by matching the character ``田'' with ``田, 内, 口, EN, ゆ'', and by matching the third character ``#'' with ``gu, prefecture, eye, and dan''. Again, a match is obtained.

かくして「秋田系」ではすべての文字が候補文字の1つ
と一致が得られるので、この”Rryチ/グ度合のもっ
ともよい「秋田系」を読取文字として出力する。
In this way, all the characters in "Akita-type" match one of the candidate characters, so this "Akita-type" with the highest degree of "Rry chi/g" is output as the read character.

しかしながらこのような複数順位の候補文字を単純に比
較する場合には、第3図に示す如き例では読取出力を1
つに確定できないことがある。すなわち、1g1書目の
文字に対しては第1誉目〜第5番目の認識順位が「宮、
官、富、呂、宙」であり、第2番目の文字に対しては同
じ< M#J&)−位が「埼、崎、峠、城、地」であシ
、第3#目の文字に対しては同じく「県、具、目、且、
旦」であり、これを文字マトリクス・レジスタ5から各
順位毎に3文字ずつ順位レジスタ6に出力して都道府県
辞書3の単語とマツチング回路4にて照合したとき、「
宮崎系」と「宮城県」とが同一のマツチング度合となり
区分することができない場合が存在する。
However, when simply comparing candidate characters in multiple ranks, the reading output is reduced to one in the example shown in Figure 3.
It may not be possible to be certain. In other words, for the characters in the 1st book of 1g, the first to fifth recognition rankings are "Miya,"
Government, Wealth, Lu, Space'', and the same for the second character <M#J&) - the position is ``Sai, Saki, Pass, Castle, Earth'', and the third # character Similarly, “prefecture, ingredients, eyes, and,
When this is output from the character matrix register 5 to the rank register 6 for each rank, three characters at a time, and compared with the words in the prefectural dictionary 3 in the matching circuit 4, "
There are cases where "Miyazaki-kei" and "Miyagi Prefecture" have the same matching degree and cannot be classified.

したがって本発明はこのような問題を改善するために認
識部からの候補出力に対し、その順位毎に重みを付与し
て単語辞書とのマツチングを求め、もっとも上位順位で
マツチングのとれた単語を求めるようKした文字認識後
処理方式を提供することを目的とするものである。そし
てこのために本発明における文字認識後処理方式では、
読取文字を認識する文字認識手段と単語が保持されてい
る単語保持手段と前記文字W識字段にて認識された文字
が単語保持手段に保持された単語と一致することを検出
するマツチング手段を具備する文字認識後処理方式にお
いて、文字認識手段から複数順位の認識文字候補を出力
させ、マツチング手段において単語保持手段に保持され
た単語と前記複数順位の認識文字候補とマツチングを行
なうとともに、前記認識文字候補の1つの文字と前記単
語の1つの文字がマツチングしたときはそのutl&顔
位に応じた重みを付与して出力する蔦み付与出力手段を
設けて認識順位に応じたマツチング順位度が得られるよ
うにすることKよシ、マツチング順位度のもつとも高い
単語を選択出力するようにしたことを特徴とする。
Therefore, in order to improve this problem, the present invention assigns weights to the candidate output from the recognition unit for each rank and matches them with the word dictionary, and then finds the word that is matched with the highest rank. The object of the present invention is to provide a character recognition post-processing method that is easy to use. For this purpose, in the character recognition post-processing method of the present invention,
It is equipped with a character recognition means for recognizing read characters, a word holding means for holding words, and a matching means for detecting that the characters recognized in the character W literacy stage match the words held in the word holding means. In the character recognition post-processing method, the character recognition means outputs recognized character candidates of a plurality of ranks, and the matching means matches the word held in the word holding means with the recognition character candidates of the plurality of ranks, and also outputs the recognized character candidates of the plurality of ranks. When one character of the candidate is matched with one character of the word, a weighting output means is provided which gives a weight according to the utl and face position and outputs it, thereby obtaining a matching ranking according to the recognition ranking. The present invention is characterized in that words having the highest matching ranking are selectively output.

以下本発明の一実施例を第4図にもとづき説明する。An embodiment of the present invention will be described below based on FIG.

第4図において他図と同符号部は同一部分を示し、7は
マツチング回路、8は単語辞書、9Fiマツチング結果
出力レジスタ、10Fi結果判定回路、11は出力レジ
スタである。
In FIG. 4, the same reference numerals as in other figures indicate the same parts, 7 is a matching circuit, 8 is a word dictionary, 9Fi matching result output register, 10Fi result determination circuit, and 11 is an output register.

マツチング回路7は単語辞書8から読出した単語を認識
部1から文字マトリクス・レジスタ5に出力された第1
顔位〜第5iWs位までの認識候補文字とを照合してマ
ツチング度行なうとともにマツチングした文字が存在す
る場合その認識順位に応じて、例えば第1順位の認識候
補文字と一致したとき「0」、第2順位の認識候補文字
と一致したとき「1」、第3順位の認識候補文字と一致
したとき「2」、第4順位のものと一致したとき「3」
、第6順位のものと一致したとき「4」、第1JIa位
〜第5順位のいずれのものとも一致しないとき「5」を
出力する。
The matching circuit 7 matches the word read from the word dictionary 8 with the first word outputted from the recognition unit 1 to the character matrix register 5.
Matching is performed by comparing the recognition candidate characters from the face rank to the 5th iWs rank, and if a matched character exists, it is determined according to its recognition rank. "1" when it matches the recognition candidate character of the second rank, "2" when it matches the recognition candidate character of the third rank, "3" when it matches the recognition candidate character of the fourth rank.
, "4" is output when it matches with the sixth rank, and "5" is output when it does not match with any of the first JIa to fifth ranks.

単語辞書8は後処理に必要な、例えば都道府県名用の単
語集とか、各部道府県毎の例えば秋田県内の郡市町村名
のような分類された複数の単語集がファイルされている
ものであシ、マツチング回路7からの単語毎の制御信号
C8により分類別に、しかも一定の順序にしたがって所
定の分類の単語が順次出力されるものである。
The word dictionary 8 is a file containing a plurality of word collections necessary for post-processing, such as word collections for prefecture names, and classified word collections for each region and prefecture, such as the names of municipalities, towns, and villages in Akita Prefecture. , words of a predetermined classification are sequentially output according to classification and in a fixed order by a control signal C8 for each word from the matching circuit 7.

マツチング結果出力レジスタ9は文字マトリクス・レジ
スタ5にセットされた候補文字と単語辞@8から出力さ
れた単語との一致度を単語対応に保持するレジスタであ
る。
The matching result output register 9 is a register that holds the degree of matching between the candidate characters set in the character matrix register 5 and the words output from the word dictionary @8 in word correspondence.

結果判定回路10はマツチング回路7にて行なわれたマ
ツチングの結果、そのもっともマツチング度合の大きな
単語を選択出力するものである。
The result determination circuit 10 selects and outputs the word with the highest degree of matching as a result of the matching performed by the matching circuit 7.

次に第4図の動作に、ついて説明する。Next, the operation shown in FIG. 4 will be explained.

(1)認識部1から出力された認識候補文字はその認識
順位にしたがって文字マ) IJクス争レジスタ5に出
力される。例えばfI1番目の文字に対しては第1順位
〜第5順位までの「科、秩、秋、材、林」が出力され、
第2番目の文字に対しては「田、内、口、円、由」が出
力され、第3番目の文字に対しては「具、県、目、且、
旦」が出力される。
(1) The recognition candidate characters output from the recognition unit 1 are output to the IJ contest register 5 according to their recognition order. For example, for the 1st character of fI, the 1st to 5th ranks of ``Kana, Chichi, Autumn, Wood, Hayashi'' are output,
For the second character, ``田, 内, 口, EN, ゆう'' is output, and for the third character, ``gu, prefecture, eye, and,
"Dan" is output.

そして前記認識部1の出力が都道府県名であることがあ
らかじめわかっているので、単語辞41′8から都道府
県名用の単語集ファイル部が順次読出される。この場合
、マツチング回路7から出力される単語毎の制御信号C
,によ)先ず「北海道」が続出される。そしてマツチン
グ回路7からの順序制御信号C1−・により順位レジス
タ6に先ず「科田具」がセットされ「北海道」と比較さ
れるが、このとき第4番目に文字がないということでの
み一致するが他は一致しない0次にマツチング回路7か
ら順序制御信号Cs−1によシ順位レジスタ6に第2順
位の「秩内県」がセットされ、同様に「北海道」と照合
される。このようにしてマツチング回路7からの順序制
御信号Cl−2〜C1−4により順位レジスタ6に第3
順位の「秋口目」、第4順位の[材円且J%票5%位の
「林由旦」が順次セットされ「北海道」とのマツチング
が行なわれるが、これらは文字同志では不一致であ夛、
その結果第4誉目の文字が存在しないということで一致
するのみなので1マツチング結果出力レジスタ90区分
1の(4)Kは「0」が記入され、区分1の(1)〜(
3)には「5」が記入される。
Since it is known in advance that the output of the recognition unit 1 is a prefecture name, word collection file portions for prefecture names are sequentially read from the word dictionary 41'8. In this case, the control signal C for each word output from the matching circuit 7
(Yo) First, ``Hokkaido'' is mentioned one after another. Then, "Shidagu" is first set in the order register 6 by the order control signal C1- from the matching circuit 7, and compared with "Hokkaido", but at this time, there is a match only because there is no character in the fourth position. "Chichiuchi Prefecture", which is the second priority, is set in the order register 6 by the order control signal Cs-1 from the matching circuit 7, and is similarly matched with "Hokkaido". In this way, the order control signals Cl-2 to C1-4 from the matching circuit 7 cause the order register 6 to select the third
The ranking ``Akiguchime'' and the 4th ranking ``Hayashi Yudan'' with 5% of J% votes are set sequentially and matched with ``Hokkaido'', but these characters do not match.夛、
As a result, there is only a match because the fourth character does not exist, so "0" is written in (4) K of section 1 of the 1 matching result output register 90, and (1) to (
“5” is entered in 3).

(2)  このようにして第1番目の単@「北海道」と
の照合が終るとマツチング回路7は制御信号C!を出力
し、第2番目の単語「青蛛県」を出力ばせる。それから
順序制御信号C1−・〜C1/%−4を出力して順位レ
ジスタ6に第1)V4位「科田具」〜第5顔位「林由旦
」を順次セットして前記「背森県」とマツチングする。
(2) When the matching with the first single @ "Hokkaido" is completed in this way, the matching circuit 7 sends the control signal C! is output, and the second word ``Aohama Prefecture'' is output. Then, the sequence control signal C1-.~C1/%-4 is outputted to sequentially set the 1st) V4 rank "Shidagu" to the 5th face rank "Yudan Hayashi" in the rank register 6, and the above-mentioned "Semori" Matching with "Prefecture".

このとき第2顔位の「秩内県」における「県」と第4番
目の文字がないという2つの点で一致するので、マツチ
ング回路7はiツチング結果出力レジスタ90区分2の
(4)に「0」、(3)に「1」、(2)と(1) 4
Cそれぞれ「5」が記入されることになる。
At this time, there is a match in two points: "Prefecture" in "Chichiuchi Prefecture" in the second face position and the absence of the fourth character, so the matching circuit 7 outputs the i-matching result output register 90 to section 2 (4). "0", "1" in (3), (2) and (1) 4
"5" will be entered for each C.

(3)次いでマッチング回路7Fi制御信号Cmにより
第3番目の単語「秋田系」を出力させ、それから前記(
11、(21と同様にして順位レジスタ6に「科田具」
〜「林由旦JfJ@次セットしてこの「秋田系jとの照
合を行なう。この場合には、第1M位の「科田具」にお
ける「田」、第2顔位における「秩内県」の「県」、第
3順位の「秋口目」における「秋」と第4番目の文字が
ないということでそれぞれ一致が得られるので、マツチ
ング結果出力レジスタ9の区分3の(2)、(4)には
roJが、(3)には「1」が、(1)には「2」がそ
れぞれge人されることになる。
(3) Next, the third word "Akita-kei" is outputted by the matching circuit 7Fi control signal Cm, and then the (
11, (Same as 21, enter "Shidagu" in rank register 6.
~ "Yutan Hayashi JfJ@Next set and check with this "Akita j. Since a match is obtained for "prefecture" in "prefecture" and "autumn" in the third rank "early autumn" and the absence of the fourth character, (2) in category 3 of matching result output register 9, ( roJ will be added to 4), ``1'' will be added to (3), and ``2'' will be added to (1).

(4)  このようにしてすべての都道府県名との照合
が終了したとき、結果判定回路10Fiこのマツチング
結果出力レジスタ9の各区分の合計点のもっとも小さい
区分を求めてそのマツチング度合のもっとも大きいもの
として選択出力することになる。
(4) When the matching with all prefecture names is completed in this way, the result judgment circuit 10Fi determines the category with the lowest total score of each category in the matching result output register 9, and selects the category with the highest degree of matching. The selected output will be as follows.

したがってこの場合には区分3が合計点3のために最小
であり、かくしてfs3番目の都道府県名の「秋田系」
を最終的な読取出力として出方レジスタIIK出力する
。このようにして後処理によ)[秋田系」を正確に取出
すことができる。
Therefore, in this case, category 3 is the minimum due to the total score of 3, thus fs 3rd prefecture name "Akita-kei"
is output from the output register IIK as the final read output. In this way, it is possible to accurately extract the [Akita type] by post-processing.

なお、t7J5図に示す如く、結果判定回路10’ K
第1人力レジスタ12、第2人力レジスタ13および比
較制御部14を設け、第1人力レジスタ12//cマツ
チング回路7からの個々の区分のマツチング状態を入力
してこれを先に入力されている第2人力レジスタ13に
保持されている区分のものとのマツチング状態と比較し
て、新らしく伝達された第1人力レジスタ12のマツチ
ング度が大きいとき(第4図の状態では合計点の小さい
とき)にこれを第2人力レジスタ13に記入し、小さい
ときにはそのまま第1人力レジスタ12に次の単語に対
するマツチング度を入力するように構成すれば、第4図
におけるマツチング結果出力レジスタ9Fi不必要とな
り、単語辞書から読出される被照合単語数が大きい場合
で吃、簡単な構成で対処することがで舞る。
In addition, as shown in figure t7J5, the result judgment circuit 10'K
A first manual register 12, a second manual register 13, and a comparison control section 14 are provided, and the matching state of each category from the first manual register 12//c matching circuit 7 is inputted first. When the matching degree of the newly transmitted first human-powered register 12 is large compared to the matching state of the category held in the second human-powered register 13 (in the state shown in FIG. 4, when the total score is small) ) is entered in the second manual register 13, and if the matching degree for the next word is entered directly into the first manual register 12 when it is small, the matching result output register 9Fi in FIG. 4 becomes unnecessary. When the number of matching words read from the word dictionary is large, this can be handled with a simple configuration.

かくして、本発明によれば、第6図に示す如く、文字マ
トリクス・レジスタ5に第1願位〜第5順位として「宮
埼県」〜「宙地旦」と出方された場合でも、マツチング
回路7において都道府県静置スタの区分9−0に合計点
が「1」として61″人されるが「宮城系」に対しては
同じく区分9−xaK合計点か「3」として記入される
ことになり、これよシ「宮崎県」が後処理結果として出
力されることになる。
Thus, according to the present invention, as shown in FIG. 6, even when "Miyazaki Prefecture" to "Chujidan" appear in the character matrix register 5 as the first to fifth rankings, the matching circuit In 7, the total score is "1" and 61" people are entered in category 9-0 of the prefecture stationary star, but for "Miyagi-kei", the total score of category 9-xaK is also entered as "3". Therefore, ``Miyazaki Prefecture'' will be output as the post-processing result.

本発明を一般的に説明すれば、μ8図に示す如く、入力
単語f Lt yllg 、・・・L%(鴨文字で単語
を構成するものとする)とし、Llに対する認識候補を
Lt(11eLt(L +++ L>(y (mR候補
とL”r第1 JQi位〜第5顔位までf採用するとき
)とする。また重みを第1願位〜第5願位に対してWi
ll〜Vdb+とし第6ノ1位以下のものに対して■・
)とし、Wlll(Wd・・・(′V@ilとしてかつ
W幻〜wi+はぼ線的な変化をもつものとする。そして
単113辞曹に登録されている標準単一(北海道とか育
森県に和尚するもの) 81,811・ 8%と入力単
語LxeL−・・Lnとの相違度りを各文字ごとの相違
度の和として表現する。各文字Ll 、Ls・・および
Lsごとの相違度は、例えばslを考えたとき認識候補
L 1(41でマツチングが得られたときその相違f 
d(Sx、LりはN4+となる。もしもマツチングする
認11!餘補がなければ相違度はW荀となる。したがっ
て単語の相違度りは、 D−、L’  d(sイ、Ll) 11 となり、このDが最小となる単語辞書の単語を正しいも
のとして判断することにする。
To explain the present invention generally, as shown in Figure μ8, an input word f Lt yllg ,...L% (a word is composed of duck characters) is assumed, and a recognition candidate for Ll is Lt(11eLt( L +++ L>(y (when mR candidate and L"r 1st JQi position to 5th face position are adopted). Also, weight is set to Wi for 1st application position to 5th application position)
ll ~ Vdb+ and for those below 6th place ■・
), Wllll (Wd... Express the degree of difference between 81,811.8% and the input word LxeL-...Ln as the sum of the degrees of difference for each character.The difference for each character Ll, Ls... and Ls. For example, when considering sl, the recognition candidate L 1 (when matching is obtained with 41, the difference f
d(Sx, L is N4+.If there is no matching 11! compensation, the degree of dissimilarity will be Wsu.Therefore, the degree of dissimilarity of the word is D-, L' d(sii, Ll) 11, and the word in the word dictionary with the minimum D is determined to be correct.

なお上紀貌明では候補文字を第5順位まで選択した例に
ついて説明したがこれに限定されるものでもない、そし
て順位の高いものを小さな数の貰みづけした例について
説明したが、逆の場合でも同様である。
In addition, in Kamiki Eiaki, an example was explained in which candidate characters were selected up to the fifth rank, but this is not limited to this, and an example was explained in which a small number was given to a candidate character with a high rank, but the opposite The same applies to cases.

以上説明の如く、本発明によれば候補文字に対しその候
補順位に応じ友重みづけを行なって単語単位にこの重み
の合計を求めることにょシ明確な後処理を行なうことが
できる。
As described above, according to the present invention, clear post-processing can be performed by weighting candidate characters according to their candidate ranks and calculating the sum of the weights for each word.

【図面の簡単な説明】[Brief explanation of drawings]

紺1図〜第3図は従来の後処理蔽明図、第4図は本発明
の一実施例構成図、第5図はその結果判定回路の他の実
施例、第6図〜第8図は本発明の詳細な説明図である。 図中、1はg繊部、2は出力レジスタ、3は都道府県辞
書、4はマツチング回路、sFi文字マトリクス、レジ
2り、6は順位レジスタ、7はマツチング回路、8il
t単語辞書、9iiマツチング結果出力レジスタ、10
は結果判定回路、11は出力レジスタをそれぞれ示す。 特許出願人  富士通株式会社 代理人弁理士  山 谷晧榮
Figures 1 to 3 are schematic diagrams of conventional post-processing, Figure 4 is a configuration diagram of one embodiment of the present invention, Figure 5 is another embodiment of the result judgment circuit, and Figures 6 to 8. FIG. 2 is a detailed explanatory diagram of the present invention. In the figure, 1 is the g fiber section, 2 is the output register, 3 is the prefectural dictionary, 4 is the matching circuit, sFi character matrix, register 2, 6 is the order register, 7 is the matching circuit, 8il
t word dictionary, 9ii matching result output register, 10
11 indicates a result determination circuit, and 11 indicates an output register. Patent Applicant Fujitsu Limited Representative Patent Attorney Akira Yamatani

Claims (1)

【特許請求の範囲】[Claims] (1)読取文字をI!識する文字*m手段と単語が保持
されている単語保持手段と前記文字認識手段にてlW識
され九文字が単語保持手段に保持された単語と一致する
ことを検出するマツチング手段を具備すゐ文字認識後処
理方式において、文字認識手段から被数順位のgw&文
字候補を出力させ、マツチング手段において単語保持手
段に保持された単語と前記複数順位のm識文字候補とマ
ツチングを行なうとともに、前記認識文字候補の1つの
文字と前記単語の1つの文字がマツチングしたときはそ
の認識順位に応じた重みを付与して出力する重み付与出
力手段を設けて認am位に応じたマツチング順位置が得
られるようKする仁とにより、マツチング順位置のもっ
とも高い単語を選択出力するようKしたことを特徴とす
る文字認識後処理方式。
(1) Read the characters I! The character recognition means includes a word holding means in which a word is held, and a matching means for detecting that nine characters recognized by the character recognition means match a word held in the word holding means. In the character recognition post-processing method, the character recognition means outputs the gw & character candidates of the numeric rank, and the matching means matches the word held in the word holding means with the m-character candidate of the plurality of ranks, and the recognition When one character of the character candidate is matched with one character of the word, a weighting output means is provided which assigns and outputs a weight according to the recognition rank, thereby obtaining a matching order position according to the recognition rank. A character recognition post-processing method is characterized in that the word with the highest matching order position is selected and outputted.
JP56136144A 1981-09-01 1981-09-01 Post processing system for character recognition Granted JPS5839378A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP56136144A JPS5839378A (en) 1981-09-01 1981-09-01 Post processing system for character recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP56136144A JPS5839378A (en) 1981-09-01 1981-09-01 Post processing system for character recognition

Publications (2)

Publication Number Publication Date
JPS5839378A true JPS5839378A (en) 1983-03-08
JPH0119195B2 JPH0119195B2 (en) 1989-04-10

Family

ID=15168329

Family Applications (1)

Application Number Title Priority Date Filing Date
JP56136144A Granted JPS5839378A (en) 1981-09-01 1981-09-01 Post processing system for character recognition

Country Status (1)

Country Link
JP (1) JPS5839378A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5839377A (en) * 1981-09-02 1983-03-08 Toshiba Corp Character recognizing device

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5839377A (en) * 1981-09-02 1983-03-08 Toshiba Corp Character recognizing device
JPS6120038B2 (en) * 1981-09-02 1986-05-20 Tokyo Shibaura Electric Co

Also Published As

Publication number Publication date
JPH0119195B2 (en) 1989-04-10

Similar Documents

Publication Publication Date Title
US5377281A (en) Knowledge-based character recognition
Ginsburgh et al. Linguistic distances and ethnolinguistic fractionalization and disenfranchisement indices
CN109558591A (en) Chinese event detection method and device
Goldsmith Linguistica: An automatic morphological analyzer
JPS5839378A (en) Post processing system for character recognition
JPH09282418A (en) Device and method for composing recognition system
JPH0226268B2 (en)
JPS62251986A (en) Misread character correction processor
JPS60225273A (en) Word retrieving system
JPH0576675B2 (en)
JPS6252912B2 (en)
Meknavin et al. Progress of combining trigram and winnow in Thai OCR error correction
JPH0795337B2 (en) Word recognition method
JPS6162986A (en) Recognition order determining system
CN115714029A (en) Method and system for determining target medical concept corresponding to medical text
JP2746899B2 (en) Character recognition device
JPS63268082A (en) Pattern recognizing device
JPH0340434B2 (en)
JPS6116383A (en) Word reading system
Kozareva et al. Using language resource independent detection for spanish named entity recognition
JP2880387B2 (en) OCR address processor
JPS62285189A (en) Character recognition post processing system
CN112818667A (en) Address correction method, system, device and storage medium
JPH0746373B2 (en) Word recognizer
JPS59178588A (en) Character recognizing device