JPH04340686A - Name dictionary for post-processing of character recognition - Google Patents

Name dictionary for post-processing of character recognition

Info

Publication number
JPH04340686A
JPH04340686A JP3113235A JP11323591A JPH04340686A JP H04340686 A JPH04340686 A JP H04340686A JP 3113235 A JP3113235 A JP 3113235A JP 11323591 A JP11323591 A JP 11323591A JP H04340686 A JPH04340686 A JP H04340686A
Authority
JP
Japan
Prior art keywords
kanji
reading
name
characters
surname
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3113235A
Other languages
Japanese (ja)
Inventor
Masaaki Nakanou
中農 正明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PFU Ltd
Original Assignee
PFU Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PFU Ltd filed Critical PFU Ltd
Priority to JP3113235A priority Critical patent/JPH04340686A/en
Publication of JPH04340686A publication Critical patent/JPH04340686A/en
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)

Abstract

PURPOSE:To easily obtain proper reading and Chinese characters (KANJI) by providing the dictionary equipped with a family name reading part, name reading part, family name word part and name word part and arranged while being divided for each number of characters. CONSTITUTION:A family name reading part 2 stores KANJI 'Nakamura' constituting a family name in respect to reading 'Nakamura', for example, a name reading part 3 stores KANJI 'Taro' constituting a name in respect to reading 'Taro', for example, a family name word part 4 stores 'Nakamura' constituting the reading in respect to the KANJI 'Nakamura' and a name word part 5 stores 'Taro' constituting the reading in respect to the KANJI 'Taro' respectively correspondently. For example, when the reading of 'Nakamufu' is recognized as one candidate, the part of 'reading composed of four characters' is investigated in the family name reading part 2, and it is discriminated that any family name having the reading of 'Nakamufu' does not exist but the reading of 'Nakamura' exists. Further, the KANJI corresponding to 'Nakamura' is investigated among several candidates.

Description

【発明の詳細な説明】[Detailed description of the invention]

【0001】0001

【産業上の利用分野】本発明は、文字認識装置の後処理
に使用する文字認識後処理用氏名辞書に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a name dictionary for post-processing of character recognition used in post-processing of a character recognition device.

【0002】0002

【従来の技術】従来から、帳票上の氏名を読み取って認
識する文字認識装置においては、認識された複数の候補
氏名をもとに、氏名辞書を索引して、最も好ましいと考
えられる氏名を最終結果として出力するようにしている
[Prior Art] Conventionally, in character recognition devices that read and recognize names on forms, a name dictionary is indexed based on a plurality of recognized candidate names, and the name considered to be the most preferable is selected as the final name. I am trying to output it as a result.

【0003】このような後処理に使用する氏名辞書は、
従来、姓に関する情報が格納される姓格納部と、名に関
する情報が格納される名格納部とをもつようにされる。
[0003] The name dictionary used for such post-processing is
Conventionally, a device has been provided with a surname storage section in which information related to the surname is stored and a given name storage section in which information related to the given name is stored.

【0004】0004

【発明が解決しようとする課題】従来の場合には、姓な
らば姓に関しての文字数ごと、また名なら名に関しての
文字数ごとに区分して配列されて格納されるという状態
になかった。このために、読みなら読みが完全にマッチ
ングされる氏名が最終結果として得られることになるも
のであった。したがって、例えば読みに関して先頭文字
と文字長だけが合致する幾つかの氏名を抽出したりする
ことが困難であった。即ち、例えば読みに関して、1部
の文字のみが誤認識されている如き場合に、可能性のあ
る氏名を索引してみるというような処理ができなかった
[Problems to be Solved by the Invention] In the past, surnames were not sorted and stored by the number of characters in the surname, and given names by the number of characters in the first name. For this reason, the final result is a name whose reading matches perfectly. Therefore, it is difficult, for example, to extract several names that match only the first character and character length in terms of pronunciation. That is, for example, when only one part of the characters is misrecognized in terms of pronunciation, it is not possible to perform a process of indexing possible names.

【0005】本発明は、先頭文字と文字長とが合致する
幾つかの氏名を候補として索引してみるという如き処理
を可能にすることを目的としている。
An object of the present invention is to enable processing such as indexing several names whose first characters and character lengths match as candidates.

【0006】[0006]

【課題を解決するための手段】図1は本発明の原理構成
図を示す。図中の符号1は氏名辞書、2は姓読み部、3
は名読み部、4は姓単語部、5は名単語部、6は一般読
み部、7は一般単語部を表している。
[Means for Solving the Problems] FIG. 1 shows a diagram of the basic configuration of the present invention. In the figure, 1 is the name dictionary, 2 is the surname reading part, and 3 is the name dictionary.
4 represents the name reading part, 4 represents the surname word part, 5 represents the name word part, 6 represents the general reading part, and 7 represents the general word part.

【0007】姓読み部2内には、例えば「ナカムラ−中
村」のように、読み「ナカムラ」に対して姓を構成する
漢字「中村」が対応づけられて格納されている。そして
、読みを構成する仮名文字の文字数が「2」である場合
、「3」である場合、「4」である場合、「5」である
場合、「2ないし5」文字以外の場合とに区分されてお
り、更に例えば「2」である場合で言えば当該「2」で
ある場合内でアイウエオ順に配列されて格納されている
[0007] In the surname reading unit 2, the kanji character ``Nakamura'' constituting the surname is stored in correspondence with the pronunciation ``Nakamura'', for example ``Nakamura-Nakamura''. If the number of kana characters that make up the reading is "2", "3", "4", "5", or other than "2 to 5" characters. For example, if it is "2", it is stored in the order of the numbers within the case "2".

【0008】名読み部3内には、例えば「タロウ−太郎
」のように、読み「タロウ」に対して名を構成する漢字
「太郎」が対応づけられて格納されている。そして、読
みを構成する仮名文字の文字数が「2」である場合、「
3」である場合、「4」である場合、「5」である場合
、「2なしい5」文字以外の場合とに区分されており、
更にアイウエオ順に格納されている。
[0008] In the name pronunciation section 3, the kanji character ``Taro'' constituting the given name is stored in correspondence with the pronunciation ``Taro'', for example, ``Taro-Taro''. If the number of kana characters that make up the reading is "2", then "
3", "4", "5", and cases other than "2-5" characters.
Furthermore, they are stored in the order of iueo.

【0009】姓単語部4内には、例えば「中村−ナカム
ラ」のように、漢字「中村」に対して読みを構成する「
ナカムラ」が対応づけられて格納されている。そして、
漢字を構成する文字が「1」である場合、「2」である
場合、「3」である場合、「1ないし3」文字以外の場
合とに区分されており、更に例えば「1」である場合で
言えば当該「1」である場合内で字画数順に配列されて
格納されている。
[0009] In the surname word part 4, for example, ``Nakamura-Nakamura'', which constitutes the pronunciation for the kanji ``Nakamura'',
Nakamura" are stored in association with each other. and,
It is divided into cases where the character that makes up the kanji is "1", "2", "3", and characters other than "1 to 3", and furthermore, for example, "1". In terms of cases, they are arranged and stored in the order of the number of strokes within the case, which is "1".

【0010】名単語部5内には、例えば「太郎−タロウ
」のように、漢字「太郎」に対して読みを構成する「タ
ロウ」が対応づけられて格納されている。この場合も、
姓単語部4の場合と同様な配列の下に格納されている。 一般読み部6内には、例えば会社名などが「読み−漢字
」の形で格納されている。また一般単語部7内には、例
えば会社名などが「漢字−読み」の形で格納されている
。そして、文字数に対応して区画されていることは、上
記姓読み部2や上記姓単語部4などと同じと考えてよい
[0010] In the famous word section 5, the kanji character "Taro" is stored in correspondence with the pronunciation "Taro", for example, "Taro-Taro". In this case too,
It is stored under the same arrangement as the last name word section 4. In the general reading section 6, company names and the like are stored in the form of "reading-kanji", for example. Further, in the general word section 7, for example, company names are stored in the form of "kanji-yomi". The fact that it is divided according to the number of characters can be considered to be the same as the surname pronunciation section 2, the surname word section 4, etc.

【0011】[0011]

【作用】文字認識装置において姓の読みとして例えば「
ナカムフ」という読みを1つの候補として認識したとす
る。この場合、姓読み部2内において、「4文字で構成
される読み」の部分が調べられ、「ナカムフ」という読
みをもつものは存在しないが「ナカムラ」が存在するこ
となどが判明される。また、読みとして「ナカムラ」が
見出され、当該「ナカムラ」に対応する漢字が「中村」
か「仲村」かなどを調べることもできる。また更に、漢
字の姓の文字をもとに読みを調べることも容易となる。
[Operation] In the character recognition device, the reading of the surname is, for example, “
Suppose that the reading ``Nakamfu'' is recognized as one candidate. In this case, the ``pronunciation consisting of four characters'' part in the surname reading part 2 is checked, and it is determined that there is no name with the pronunciation of ``Nakamuf'' but that ``Nakamura'' does exist. Also, the reading ``Nakamura'' was found, and the kanji corresponding to ``Nakamura'' is ``Nakamura''.
You can also check whether it is "Nakamura" or "Nakamura". Furthermore, it becomes easy to check the pronunciation based on the characters of the surname in kanji.

【0012】また、一般読み部や一般単語部をもうけて
いることによって、会社名などの読み取りに利用できる
Furthermore, by providing a general reading section and a general word section, it can be used to read company names, etc.

【0013】[0013]

【実施例】図2と図3とは本発明による辞書利用の後処
理態様を表すフローチャートを示す。図2は主として「
読み」からの処理に対応し、図3は主として「漢字」か
らの処理に対応している。
DESCRIPTION OF THE PREFERRED EMBODIMENTS FIGS. 2 and 3 are flowcharts showing post-processing aspects of dictionary use according to the present invention. Figure 2 mainly shows “
This corresponds to the processing starting from "Yomi", and FIG. 3 mainly corresponds to the processing starting from "Kanji".

【0014】(S1):ステップS1において、文字認
識装置が認識したデータ(カナ+漢字)を受け取る。 (S2):読みの先頭1文字と読みの文字数との組合わ
せ条件をもとに、辞書1をアクセスし、それに合致する
データを抽出する。
(S1): In step S1, data (kana+kanji) recognized by the character recognition device is received. (S2): Based on the combination condition of the first character of the pronunciation and the number of characters of the pronunciation, the dictionary 1 is accessed and data matching the condition is extracted.

【0015】(S3):抽出されたデータと入力データ
とを照合して、類似度などの得点を計算する。 (S4):上記ステップS2と同じ条件を満足する辞書
データがなおも存在するか否かを調べ、存在すれば、ス
テップS2に戻る。
(S3): The extracted data is compared with the input data, and scores such as similarity are calculated. (S4): It is checked whether there is still dictionary data that satisfies the same conditions as in step S2, and if there is, the process returns to step S2.

【0016】(S5):抽出されたデータについての得
点が閾値よりも大であるか否かがチェックされる。 以上のようにして、「読み」からみた場合に、候補とな
り得るデータが幾つか決定される。
(S5): It is checked whether the score of the extracted data is greater than a threshold value. As described above, some data that can be candidates are determined from the "reading" perspective.

【0017】(S6):当該候補となったデータに対応
する漢字を、辞書1をアクセスして、抽出する。 (S7):入力データの漢字と辞書からの漢字とを照合
して、得点を計算する。
(S6): The dictionary 1 is accessed and the kanji corresponding to the candidate data is extracted. (S7): Compare the kanji of the input data with the kanji from the dictionary and calculate the score.

【0018】(S8):同音異義語がなおも存在するか
否かチェックされる。 (S9):得られている得点が閾値以上であるか否かが
チェックされる。 (S10):閾値以上であれば、出力データとして出力
される。 (S11):ステップS5やステップS9においてNO
となった場合には「漢字」からの処理に進む。
(S8): It is checked whether homonyms still exist. (S9): It is checked whether the obtained score is greater than or equal to a threshold value. (S10): If it is equal to or greater than the threshold value, it is output as output data. (S11): NO in step S5 or step S9
If so, proceed to processing from "Kanji".

【0019】「漢字」からの処理においては、図3に示
すステップS12に入る。 (S12):入力データを組合わせた漢字に一致する漢
字とその読みとを辞書1から抽出する。例えば入力デー
タにおける漢字について、例えば「小本」、「山木」、
「川来」が夫々候補として挙がっている場合には、「小
本」、「小木」、「小来」、「山本」、「山木」、「山
来」、「川本」、「川木」、「川来」の夫々に一致する
漢字とその読みとを辞書1から抽出する。
In the process starting from "Kanji", the process proceeds to step S12 shown in FIG. (S12): Extract from the dictionary 1 kanji and their readings that match the kanji combined with the input data. For example, regarding the kanji in the input data, for example, "komoto", "yamaki",
If "Kawago" is listed as a candidate, "Komoto", "Ogi", "Kogo", "Yamamoto", "Yamaki", "Yamago", "Kawamoto", "Kawaki" , "Kawago" and their pronunciations are extracted from the dictionary 1.

【0020】(S13):入力データの(カナ+漢字)
と辞書データの(カナ+漢字)とを照合して得点を計算
する。例えばステップS12において示した入力データ
の漢字「小本」、「山木」、「川来」に対応する「読み
」の入力データが「カマモト」、「ヤヌホノ」、「アメ
タイ」を候補として挙がっている場合には、「カマモト
」、「カヌモト」、「カメモト」、「ヤマモト」、「ヤ
ヌモト」、「ヤメモト」、「アマモト」、「アヌモト」
、「アメモト」、「カマホト」、「カマタト」・・・・
・などが組合わせとして得られ、それらと上記漢字例の
候補と組合わせて夫々の得点が計算される。
(S13): Input data (kana + kanji)
and the dictionary data (kana + kanji) to calculate the score. For example, the input data of the "reading" corresponding to the kanji characters "Komoto", "Yamaki", and "Kawaki" in the input data shown in step S12 lists "Kamamoto", "Yanuhono", and "Ametai" as candidates. In this case, "Kamamoto", "Kanumoto", "Kamemoto", "Yamamoto", "Yanumoto", "Yamemoto", "Amamoto", "Anumoto"
, "Amemoto", "Kamahot", "Kamatato"...
・ etc. are obtained as combinations, and their scores are calculated by combining them with the above Kanji example candidates.

【0021】(S14):辞書データ1になお調べるべ
きデータが存在するか否かがチェックされる。 (S15):調べるべき他の組合わせが存在するかがチ
ェックされる。 (S16):得点が閾値以上か否かがチェックされる。
(S14): It is checked whether there is still data to be examined in the dictionary data 1. (S15): It is checked whether there are other combinations to be examined. (S16): It is checked whether the score is equal to or greater than a threshold value.

【0022】(S17):YESであれば出力データと
して出力される。 (S18):NOであれば出力失敗となる。 以上の如く処理が行われるが、入力データが例えば、読
みに関して、 カマモト ヤヌホノ アメタイ が候補として得られており、漢字に関して、小本 山木 川来 が候補として得られている場合には、本発明の辞書を利
用した後処理によって、 ヤマモト−山本 を得ることができた。
(S17): If YES, the data is output as output data. (S18): If NO, output fails. The processing is performed as described above, but if the input data is, for example, for the pronunciation, Kamamotoyanuhonoaametai is obtained as a candidate, and for the kanji, Komotoyamakikawarai is obtained as a candidate, the present invention By post-processing using the dictionary, we were able to obtain Yamamoto-Yamamoto.

【0023】[0023]

【発明の効果】以上説明した如く、本発明によれば、文
字認識装置における認識過程において得られている候補
文字(読みと漢字)から、後処理によって、適正な「読
みと漢字」とを得ることが容易になる。
[Effects of the Invention] As explained above, according to the present invention, appropriate "readings and kanji" are obtained through post-processing from candidate characters (readings and kanji) obtained during the recognition process in a character recognition device. It becomes easier.

【図面の簡単な説明】[Brief explanation of drawings]

【図1】本発明の原理構成図を示す。FIG. 1 shows a diagram of the principle configuration of the present invention.

【図2】辞書利用の後処理態様を表すフローチャートで
ある。
FIG. 2 is a flowchart showing a post-processing aspect of dictionary use.

【図3】辞書利用の後処理態様を表すフローチャートで
ある。
FIG. 3 is a flowchart showing a post-processing mode using a dictionary.

【符号の説明】[Explanation of symbols]

1  氏名辞書 2  姓読み部 3  名読み部 4  姓単語部 5  名単語部 6  一般読み部 7  一般単語部 1 Name dictionary 2 Surname reading part 3. Famous reading section 4 Surname word part 5. Famous words section 6 General reading section 7 General vocabulary section

Claims (2)

【特許請求の範囲】[Claims] 【請求項1】  帳票に記述されている少なくとも氏名
に対応する文字を読み取って認識する文字認識装置に使
用される文字認識後処理用氏名辞書において、姓に関し
て、読みに対して漢字を対応づけると共に、当該読みを
構成する文字数ごとに、同一文字数をもつ読みを予め定
めた順に配列して格納した姓読み部(2)と、名に関し
て、読みに対して漢字を対応づけると共に、当該読みを
構成する文字数ごとに、同一文字数をもつ読みを予め定
めた順に配列して格納した名読み部(3)と、姓に関し
て、漢字に対して読みを対応づけると共に、当該漢字を
構成する文字数ごとに、同一文字数をもつ漢字を予め定
めた順に配列して格納した姓単語部(4)と、名に関し
て、漢字に対して読みを対応づけると共に、当該漢字を
構成する文字数ごとに、同一文字数をもつ漢字を予め定
めた順に配列して格納した名単語部(5)と、を少なく
ともそなえ、上記文字認識装置において抽出された氏名
に対応する候補氏名群に関して、当該候補氏名群の1つ
1つについての読みおよび/または漢字を基準として、
対応する漢字および/または読みを抽出可能にしたこと
を特徴とする文字認識後処理用氏名辞書。
[Claim 1] In a name dictionary for character recognition post-processing used in a character recognition device that reads and recognizes at least characters corresponding to a name written on a form, for a surname, a kanji is associated with a reading and a kanji is , a surname reading part (2) in which readings with the same number of characters are arranged and stored in a predetermined order for each number of characters making up the reading; For each number of characters, a name reading section (3) stores readings with the same number of characters arranged in a predetermined order, and for surnames, readings are associated with kanji, and for each number of characters constituting the kanji, A surname word section (4) in which kanji with the same number of characters are arranged and stored in a predetermined order, and a kanji with the same number of characters for each kanji that corresponds to the pronunciation of the kanji for the first name. at least a famous word section (5) in which names are arranged and stored in a predetermined order, and with respect to a group of candidate names corresponding to the names extracted by the character recognition device, information on each of the group of candidate names is provided. Based on reading and/or kanji,
A name dictionary for post-processing of character recognition, characterized by being able to extract corresponding kanji and/or pronunciations.
【請求項2】  上記姓読み部(2)と、上記名読み部
(3)と、上記姓単語部(4)と、上記名単語部(5)
とをそなえると共に、姓および/または名以外の一般単
語についての一般読み部(6)と、一般単語部(7)と
を有することを特徴とする請求項1記載の文字認識後処
理用氏名辞書。
Claim 2: The surname pronunciation part (2), the given name pronunciation part (3), the surname word part (4), and the given name part (5).
2. The name dictionary for character recognition post-processing according to claim 1, further comprising a general reading section (6) for general words other than surnames and/or given names, and a general word section (7). .
JP3113235A 1991-05-17 1991-05-17 Name dictionary for post-processing of character recognition Pending JPH04340686A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3113235A JPH04340686A (en) 1991-05-17 1991-05-17 Name dictionary for post-processing of character recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3113235A JPH04340686A (en) 1991-05-17 1991-05-17 Name dictionary for post-processing of character recognition

Publications (1)

Publication Number Publication Date
JPH04340686A true JPH04340686A (en) 1992-11-27

Family

ID=14606995

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3113235A Pending JPH04340686A (en) 1991-05-17 1991-05-17 Name dictionary for post-processing of character recognition

Country Status (1)

Country Link
JP (1) JPH04340686A (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63138479A (en) * 1986-11-29 1988-06-10 Toshiba Corp Character recognizing device
JPS63268082A (en) * 1987-04-27 1988-11-04 Toshiba Corp Pattern recognizing device
JPS63268083A (en) * 1987-04-27 1988-11-04 Fujitsu Ltd Word recognizing device
JPH01316889A (en) * 1988-06-17 1989-12-21 Fujitsu Ltd Handwritten character recognizing system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63138479A (en) * 1986-11-29 1988-06-10 Toshiba Corp Character recognizing device
JPS63268082A (en) * 1987-04-27 1988-11-04 Toshiba Corp Pattern recognizing device
JPS63268083A (en) * 1987-04-27 1988-11-04 Fujitsu Ltd Word recognizing device
JPH01316889A (en) * 1988-06-17 1989-12-21 Fujitsu Ltd Handwritten character recognizing system

Similar Documents

Publication Publication Date Title
US5819265A (en) Processing names in a text
US5832480A (en) Using canonical forms to develop a dictionary of names in a text
US6978044B2 (en) Pattern string matching apparatus and pattern string matching method
US6757647B1 (en) Method for encoding regular expressions in a lexigon
JPH04340686A (en) Name dictionary for post-processing of character recognition
JPH0441388B2 (en)
JP3187671B2 (en) Electronic dictionary display
JPS63138479A (en) Character recognizing device
JPH01114976A (en) Dictionary structure for document processor
JP2839515B2 (en) Character reading system
JPH0340434B2 (en)
JP2570784B2 (en) Document reader post-processing device
JPH0259513B2 (en)
JPH0438026B2 (en)
JPH06161995A (en) Method and device for shaping name data
JPS6121581A (en) Character recognizer
JPS6174086A (en) Word recognizing device
JPH08249427A (en) Method and device for character recognition
JPS62247480A (en) Postprocessing system for character recognition
JPS61161588A (en) Postprocessing system of character recognition
JPS63268083A (en) Word recognizing device
JPH05342273A (en) Example sentence retreival system
JPS62247482A (en) Post-processing system for character recognition
JPH076212A (en) Intelligence processing unit for optical character reader
JPH06215198A (en) Character recognition post-processing system