JPH0528132A - Word dictionary collating device - Google Patents

Word dictionary collating device

Info

Publication number
JPH0528132A
JPH0528132A JP3181444A JP18144491A JPH0528132A JP H0528132 A JPH0528132 A JP H0528132A JP 3181444 A JP3181444 A JP 3181444A JP 18144491 A JP18144491 A JP 18144491A JP H0528132 A JPH0528132 A JP H0528132A
Authority
JP
Japan
Prior art keywords
word
input
character
character string
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3181444A
Other languages
Japanese (ja)
Inventor
Fumihiko Sugiura
文彦 杉浦
Hiroyuki Inaba
弘幸 稲葉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP3181444A priority Critical patent/JPH0528132A/en
Publication of JPH0528132A publication Critical patent/JPH0528132A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PURPOSE:To attain the optimum retrieval of words in response to the word features. CONSTITUTION:A field is provided in a word record registered in a word dictionary 6 to store the retrieving conditions. This retrieving condition field stores the proper retrieving conditions of words. At a word collating part 4, the character string inputted from a character input part 2 is collated with the character string read out of the dictionary 6. Then the result of this collation is outputted to a retrieving condition collating part 7. The part 7 performs the collation to decide whether the word collating result satisfies or not the retrieving conditions proper to the words. Then only the word collating results that satisfy the retrieving conditions are outputted to a word deciding part 8. The part 8 outputs the code showing the word that is most coincident with an input character string out of those input word collating results.

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、文字入力装置から入力
された文字列と単語辞書に登録されている単語とを照合
して入力文字列を認識する単語辞書照合装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a word dictionary collation device for recognizing an input character string by collating a character string input from a character input device with a word registered in a word dictionary.

【0002】[0002]

【従来の技術】図2は従来の単語辞書照合装置を示すブ
ロック図である。文字入力部2から入力された文字列デ
ータは、文字コード変換部3で単語辞書25からの読み
出しコードとの照合に適合する文字コードに変換され
る。読出制御部24は、単語辞書25から単語を読み出
し、単語照合部23へ転送する。単語照合部23では、
文字コード変換部22から転送されてきた文字列コード
と読出し制御部24から転送されてきた文字列コードと
を照合し、照合結果を単語判定部26へ転送する。単語
判定部26では、単語照合部23での照合結果に応じ
て、入力文字列と最大一致する単語を出力する。
2. Description of the Related Art FIG. 2 is a block diagram showing a conventional word dictionary matching device. The character string data input from the character input unit 2 is converted by the character code conversion unit 3 into a character code suitable for matching with a read code from the word dictionary 25. The read control unit 24 reads a word from the word dictionary 25 and transfers it to the word matching unit 23. In the word matching unit 23,
The character string code transferred from the character code conversion unit 22 is collated with the character string code transferred from the read control unit 24, and the collation result is transferred to the word determination unit 26. The word determination unit 26 outputs the word that most matches the input character string according to the matching result of the word matching unit 23.

【0003】[0003]

【発明が解決しようとする課題】上述した従来の単語辞
書照合装置では、単語辞書25内の全ての単語レコード
が同等の条件で検索されるので、単語の特徴に応じた固
有の検索処理をその特徴を有する単語レコードに限定し
て実行させることができないという欠点がある。例え
ば、特定の単語について検索の精度を上げたい場合に、
その単語の照合条件を他の単語と異ならせて検索を実行
させるという処理ができない。
In the above-mentioned conventional word dictionary collating apparatus, all word records in the word dictionary 25 are searched under the same condition, so that a unique search process according to the feature of the word is performed. It has a drawback that it cannot be executed only for word records having characteristics. For example, if you want to improve the accuracy of the search for specific words,
It is not possible to perform a search by making the matching condition of the word different from other words.

【0004】[0004]

【課題を解決するための手段】本発明の装置は、文字入
力手段から入力された文字列に応じて登録されている単
語のうちから前記入力文字列と最大一致する単語を検索
照合する単語辞書照合装置において、前記単語辞書に登
録される単語レコード内に該単語固有の検索条件を付与
したフィールドを設けて該単語と共に該検索条件を予め
記憶させた単語辞書と、該単語辞書および前記文字入力
手段から入力された文字列を照合し単語照合結果と単語
レコード内の前記検索条件とに応じて該検索条件を満足
した単語レコードに対応する照合結果のみを出力する単
語判定手段とを備えている。
The apparatus of the present invention is a word dictionary for searching and matching a word that is the maximum match with the input character string among the words registered according to the character string input from the character input means. In the matching device, a field in which a search condition unique to the word is provided in a word record registered in the word dictionary, and the word dictionary in which the search condition is stored together with the word, and the word dictionary and the character input And a word determining unit that outputs only the matching result corresponding to the word record satisfying the search condition in accordance with the word matching result and the search condition in the word record. .

【0005】[0005]

【実施例】以下、本発明について図面を参照して説明す
る。
DESCRIPTION OF THE PREFERRED EMBODIMENTS The present invention will be described below with reference to the drawings.

【0006】図1は本発明の一実施例を示すブロック図
である。本実施例は、郵便物上に記載された住所表記の
内の地域名を検出し、その地域名によって郵便物を仕分
けするものである。
FIG. 1 is a block diagram showing an embodiment of the present invention. In this embodiment, the area name in the address notation written on the mail piece is detected, and the mail piece is sorted according to the area name.

【0007】文字入力部2には、郵便物上に記載された
文字を文字読取装置1で読み取ったデータを与えられ
る。文字コード変換部3は、文字入力部2から入力され
た文字列データを単語辞書6からの読み出しコードとの
照合に適合する文字コードに変換する。読出制御部5
は、単語照合部4からの指令に応じて、単語辞書6から
単語レコードを読み出す。単語辞書6は、予め多数の地
域名を記憶させてある辞書であり、特定の単語レコード
の検索条件フィールドには、文字列の照合が完全に一致
しなければならないという検索条件が記憶されている。
単語照合部4は、文字コード変換部3より入力された文
字列コードと、読出制御部5を経由して単語辞書6から
読み出した地域名の文字列コードとを照合する。照合方
式としては、「DPマッチング方式」が用いられ、入力
文字列の誤り,欠け,混入に対しても対処可能である。
単語照合部4は、予め定められた類似度以上の照合結果
を有する単語レコード情報のみを検索条件照合部7へ出
力する。検索条件照合部7は、単語照合部4から出力さ
れた照合結果の地域名が単語レコードに検索条件を付与
された地域名に該当する時には、文字列の照合が完全に
一致したかどうかを判断し、不一致の場合には、その単
語レコードの照合結果の情報の単語判定部8への出力を
禁止する。また検索条件が一致した場合、及び検索条件
が付与されていない地域名の単語レコードの場合には、
その単語レコードの照合結果の情報を単語判定部8へ出
力する。
The character input unit 2 is provided with data obtained by reading characters written on a mail piece with the character reading device 1. The character code conversion unit 3 converts the character string data input from the character input unit 2 into a character code suitable for matching with a read code from the word dictionary 6. Read control unit 5
Reads a word record from the word dictionary 6 in response to a command from the word matching unit 4. The word dictionary 6 is a dictionary in which a large number of area names are stored in advance, and the search condition field of a specific word record stores a search condition that the matching of the character string must be exactly the same. ..
The word collating unit 4 collates the character string code input from the character code converting unit 3 with the character string code of the area name read from the word dictionary 6 via the reading control unit 5. A “DP matching method” is used as a matching method, and it is possible to deal with errors, omissions, and mixing of input character strings.
The word matching unit 4 outputs only the word record information having a matching result equal to or higher than a predetermined similarity to the search condition matching unit 7. When the area name of the matching result output from the word matching unit 4 corresponds to the area name given the search condition in the word record, the search condition matching unit 7 determines whether the matching of the character strings is completely matched. If they do not match, the output of the matching result information of the word record to the word determination unit 8 is prohibited. If the search conditions match or if the word record is a region name with no search condition,
The information of the matching result of the word record is output to the word determination unit 8.

【0008】単語判定部8では、検索条件照合部7から
入力された照合結果の中から、文字読取装置1から入力
された文字列と、最大一致する地域名を表示するコード
を出力する。区分機9では、単語判定部8から入力され
た地域名コードによって郵便物を仕分けする。
The word determination unit 8 outputs a code for displaying the maximum matching area name with the character string input from the character reading device 1 from the matching results input from the search condition matching unit 7. The sorting machine 9 sorts the mail pieces according to the area name code input from the word determination unit 8.

【0009】次に本実施例の動作を具体例によって説明
する。単語辞書6には、多数の地域名が登録されている
が、その中に「Chai Wan」、「Causewa
yBay」、「Yuen Long」、「Yuen K
ong」等が含まれているものとする。
Next, the operation of this embodiment will be described with reference to a concrete example. A large number of area names are registered in the word dictionary 6, of which “Chai Wan” and “Causewa” are included.
"yBay", "Yuen Long", "Yuen K"
"Ong" and the like are included.

【0010】地域名「Chai Wan」は、人名「C
han Wan」、「Chan Won」等と類似した
文字列であり、しかもこれらの中国人名は出現頻度が高
い。もし、郵便物上で地域名記載領域でなく宛名記載領
域が文字読取装置1によって走査され、その結果文字入
力部2へ「Chan Wan」、「Chan Won」
等の文字列が入力された場合、従来の単語辞書照合装置
では、これらの入力文字列は地域名「Chai Wa
n」であると誤判定されてしまう。
The area name "Chai Wan" is the personal name "C
It is a character string similar to “han Wan”, “Chan Won”, etc., and moreover, these Chinese names appear frequently. If the address writing area, not the area name writing area, is scanned on the mail by the character reading device 1, as a result, "Chan Wan" and "Chan Won" are input to the character input unit 2.
In the conventional word dictionary collating device, the input character strings are "Chi Wa
It will be erroneously determined to be "n".

【0011】本実施例では、地域名「Chai Wa
n」のように、完全には一致しないが類似しておりしか
も出現頻度の高い人名がある地域名については、その単
語レコードの検索条件フィールドに、文字列の照合で完
全に一致しなければならないという条件を記憶させ、そ
れ以外の地域名の単語レコードの検索条件フィールドに
は、特定の検索条件を記憶させない。
In this embodiment, the area name is "Chai Wa".
For an area name such as “n” that does not exactly match but is similar and has a frequently appearing person name, the search condition field of the word record must be completely matched by matching the character string. The specific search condition is not stored in the search condition field of the word record of the other area name.

【0012】(1)いま例えば、文字列「Yuan L
ong」が文字入力部2から入力されると、単語照合部
4では、入力文字列「Yuan Long」と、読取制
御部5を経由して単語辞書から読み出された地域名の文
字列とが、「DPマッチング方式」によって照合され
る。本実施例の場合、「Yuen Kong」、「Yu
en Long」が予め定られた値以上の類似度を有す
る地域名として、その照合結果の情報が検索条件照合部
7へ転送される。
(1) Now, for example, the character string "Yuan L
When “ong” is input from the character input unit 2, the word matching unit 4 extracts the input character string “Yuan Long” and the character string of the area name read from the word dictionary via the reading control unit 5. , “DP matching method”. In the case of this embodiment, “Yuen Kong”, “Yu”
The information of the matching result is transferred to the search condition matching unit 7 as an area name having a similarity equal to or more than a predetermined value as “en Long”.

【0013】検索条件照合部7では、単語照合部4から
転送された地域名と共に検索条件フィールドが参照され
るが、地域名「Yuen Long」、「Yuen K
ong」の検索条件フィールドにはいずれも特定の検索
条件は記憶されていないので、両地域名とも単語判定部
へ転送される。
The search condition matching unit 7 refers to the search condition field together with the area name transferred from the word matching unit 4, and the area names "Yuen Long" and "Yuen K" are referenced.
Since no specific search condition is stored in the search condition field of "ong", both area names are transferred to the word determination unit.

【0014】単語判定部8では、入力文字「Yuan
Long」と最大一致する地域名は「Yuen Lon
g」であるという判定を下し、「Yuen Long」
を表示するコードを出力する。
In the word determination section 8, the input character "Yuan"
The area name that most matches "Long" is "Yuen Lon"
g ", and then" Yuen Long "
Output the code that displays.

【0015】(2)次に例えば、文字列「Chan W
an」が文字入力部2から入力された場合には、前項
(1)と同様の動作の結果、単語照合部4での照合結果
として地域名「Chai Wan」の情報が検索条件照
合部7へ転送される。
(2) Next, for example, the character string "Chan W
When “an” is input from the character input unit 2, as a result of the same operation as the above item (1), the information of the area name “Chai Wan” is input to the search condition matching unit 7 as the matching result of the word matching unit 4. Transferred.

【0016】検索条件照合部7では、地域名「Chai
Wan」と共にその検索条件フィールドが参照される
が、ここには文字列の照合で完全に一致しなければなら
ないという条件が記憶されているので、この条件を満足
するか否か照合される。今の場合、地域名の文字列「C
hai Wan」と文字入力部2からの入力文字列「C
han Wan」とは、1文字異なり完全には一致しな
いので、地域名「Chai Wan」の情報の単語判定
部8への出力は禁止される。
In the search condition matching unit 7, the area name "Chai"
The search condition field is referred to together with “Wan”, but since the condition that the character strings must be matched completely is stored here, it is checked whether or not this condition is satisfied. In this case, the character string "C
"Hai Wan" and the input character string "C from the character input unit 2
Since one character is different and does not completely match with “han Wan”, output of the information of the area name “Chai Wan” to the word determination unit 8 is prohibited.

【0017】単語判定部8では、検索条件照合部7から
照合結果情報が入力されないので、入力文字列「Cha
n Wan」と一致する地域名は単語辞書6の中には無
いという判定を表示するコードを出力する。
In the word determination unit 8, since the matching result information is not input from the search condition matching unit 7, the input character string "Cha
A code indicating that the area name matching "n Wan" is not in the word dictionary 6 is output.

【0018】以上の(1),(2)での説明でわかるよ
うに、文字入力部2から入力された文字列「Yuan
Long」、「Chan Wan」はいずれも、単語辞
書6に記憶された文字列「Yuen Long」、「C
hai Wan」と1文字違いの文字列であるが、文字
列「Yuan Long」については地域名の検索が成
功し、正しい地域名「Yuen Long」を表示する
コードが単語判定部8から出力される。しかし、人名の
文字列「Chan Wan」については地域名として検
索されないというコードが単語判定部8から出力され
る。
As can be seen from the explanations in (1) and (2) above, the character string "Yuan" input from the character input unit 2 is input.
“Long” and “Chan Wan” are both character strings “Yuen Long” and “C” stored in the word dictionary 6.
Although it is a character string that is one character different from "hai Wan", the area name search is successful for the character string "Yuan Long", and the code for displaying the correct area name "Yuen Long" is output from the word determination unit 8. . However, the word determination unit 8 outputs a code that the character string “Chan Wan” of the person's name is not searched as the area name.

【0019】このようにして、同程度の類似度を有する
異なる入力文字列に対して、異なる条件で判定を行わせ
て検索精度を向上させることができる。
In this way, different input character strings having similar degrees of similarity can be judged under different conditions to improve search accuracy.

【0020】[0020]

【発明の効果】以上説明したように本発明によれば、単
語辞書内に記憶された単語レコード内にその単語固有の
検索条件を付与しておき、この検索条件を満足する単語
レコードの照合結果のみを単語判定部へ転送することに
よって、単語の特徴に応じた固有の検索処理が可能とな
り、検索精度を向上できる。
As described above, according to the present invention, the word record stored in the word dictionary is provided with a search condition peculiar to the word, and the matching result of the word record satisfying this search condition is provided. By transferring only the word to the word determination unit, it is possible to perform a unique search process according to the feature of the word, and improve the search accuracy.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の実施例のブロック図。FIG. 1 is a block diagram of an embodiment of the present invention.

【図2】従来装置のブロック図。FIG. 2 is a block diagram of a conventional device.

【符号の説明】[Explanation of symbols]

1 文字読取装置 2 文字入力部 3 文字コード変換部 4 単語照合部 5 読出制御部 6 単語辞書 7 検索条件照合部 8 単語判定部 9 区分機 10 単語辞書照合装置 1 Character reading device 2 Character input unit 3 Character code conversion unit 4 Word matching unit 5 Read control unit 6 Word dictionary 7 Search condition matching unit 8 Word judging unit 9 Sorting machine 10 Word dictionary matching device

Claims (1)

【特許請求の範囲】 【請求項1】 文字入力手段から入力された文字列に応
じて登録されている単語のうちから前記入力文字列と最
大一致する単語を検索照合する単語辞書照合装置におい
て、前記単語辞書に登録される単語レコード内に該単語
固有の検索条件を付与したフィールドを設けて該単語と
共に該検索条件を予め記憶させた単語辞書と、該単語辞
書および前記文字入力手段から入力された文字列を照合
し単語照合結果と単語レコード内の前記検索条件とに応
じて該検索条件を満足した単語レコードに対応する照合
結果のみを出力する単語判定手段とを備えていることを
特徴とする単語辞書照合装置。
Claim: What is claimed is: 1. A word dictionary matching device for searching and matching a word that matches the input character string at a maximum among words registered according to the character string input from the character input means. The word record registered in the word dictionary is provided with a field to which a search condition specific to the word is provided, and the word dictionary in which the search condition is stored together with the word, and the word dictionary and the character input means are used for input. And a word determining unit that outputs only the matching result corresponding to the word record satisfying the search condition according to the word matching result and the search condition in the word record. Word dictionary matching device.
JP3181444A 1991-07-23 1991-07-23 Word dictionary collating device Pending JPH0528132A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3181444A JPH0528132A (en) 1991-07-23 1991-07-23 Word dictionary collating device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3181444A JPH0528132A (en) 1991-07-23 1991-07-23 Word dictionary collating device

Publications (1)

Publication Number Publication Date
JPH0528132A true JPH0528132A (en) 1993-02-05

Family

ID=16100879

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3181444A Pending JPH0528132A (en) 1991-07-23 1991-07-23 Word dictionary collating device

Country Status (1)

Country Link
JP (1) JPH0528132A (en)

Similar Documents

Publication Publication Date Title
JPH0528132A (en) Word dictionary collating device
JP4054453B2 (en) Character recognition device and program recording medium
JPH0441388B2 (en)
JPS646499B2 (en)
JP2874199B2 (en) Word dictionary matching device
JP2942375B2 (en) Character reader
JPH0635971A (en) Document retrieving device
JP2570784B2 (en) Document reader post-processing device
JP2560959B2 (en) Post-processing method for character recognition
JPS60225273A (en) Word retrieving system
JPS6121581A (en) Character recognizer
JPH0546814A (en) Character reader
JP2827066B2 (en) Post-processing method for character recognition of documents with mixed digit strings
JPS63268082A (en) Pattern recognizing device
JPH02148174A (en) Data retrieving device
JP3007697B2 (en) Word matching device and word matching method
JP2000251017A (en) Word dictionary preparing device and word recognizing device
JPH076212A (en) Intelligence processing unit for optical character reader
JPS6355624A (en) Collation device for address dictionary
JPS5930176A (en) Character discrimination processing system
JPH0646423B2 (en) Word dictionary matching device
JPH04280394A (en) Character recognizing device and recognized character fixing method
JPS6175467A (en) Kana and kanji converting device
JPH04215183A (en) Key word retrieving method
JPS63138478A (en) Character recognizing system

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 19991124