JP3101153B2 - Japanese input device - Google Patents

Japanese input device

Info

Publication number
JP3101153B2
JP3101153B2 JP06143583A JP14358394A JP3101153B2 JP 3101153 B2 JP3101153 B2 JP 3101153B2 JP 06143583 A JP06143583 A JP 06143583A JP 14358394 A JP14358394 A JP 14358394A JP 3101153 B2 JP3101153 B2 JP 3101153B2
Authority
JP
Japan
Prior art keywords
character
dictionary
characters
similar
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP06143583A
Other languages
Japanese (ja)
Other versions
JPH0816711A (en
Inventor
竜士 船山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP06143583A priority Critical patent/JP3101153B2/en
Publication of JPH0816711A publication Critical patent/JPH0816711A/en
Application granted granted Critical
Publication of JP3101153B2 publication Critical patent/JP3101153B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Processing Or Creating Images (AREA)
  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【産業上の利用分野】本発明は、日本語入力装置に関
し、より詳細には、日本語入力が可能な機器において、
読みのわからない文字を入力する際、形の似ている文字
を集めた辞書を用いて、その字に形が似ている文字をま
ず入力してから前記辞書を用いて目的の字を検索するよ
うにした日本語入力装置に関する。例えば、ワープロ、
パソコン、オフコン、ワークステーション、電子手帳な
ど、辞書を検索する方式を用いた日本語入力方式を持つ
すべての機器に適用されるものである。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a Japanese language input device, and more particularly, to a device capable of inputting Japanese language.
When inputting characters that you do not understand, use a dictionary that collects characters with similar shapes, first input characters that are similar in shape to that character, and then search for the target character using the dictionary. Japanese language input device. For example, a word processor,
The present invention is applied to all devices having a Japanese input method using a method of searching a dictionary, such as a personal computer, an office computer, a workstation, and an electronic organizer.

【0002】[0002]

【従来の技術】現在主流になっているかな漢字変換は、
読みをかな入力し、入力されたかなを変換することによ
って目的の字を得るようになっているが、読みのわから
ない文字を入力する方法としては、コード入力や部首入
力、画数入力などがある。コード入力は、図25に示す
ように、字や記号と1:1に対応したコード(JIS、
シフトJIS、区点コードなど)を、通常は紙に印刷さ
れた一覧表(通常、第1水準の漢字は音読みでのよみが
なの50音順、第2水準は部首の画数順の配列になって
いる)から拾い出し、そのコードを入力して変換するこ
とによって目的の字を得るものである。一覧表が紙に印
刷されておらず、電子化されている場合もあり、その場
合は、コードを入力するのではなく、ディスプレイ上で
紙の上と同じように目的の字を探し出し、ポインティン
グデバイスなどを用いてその字を指定することもある。
2. Description of the Related Art Kana-Kanji conversion, which is currently mainstream,
You can get the desired character by inputting readings and converting the input kana, but there are methods of inputting characters that you do not understand, such as code input, radical input, stroke number input, etc. . As shown in FIG. 25, the code input is a code (JIS, JIS,
Shift JIS, Kuten codes, etc. are usually arranged in a list printed on paper (normally, the first level of kanji is arranged in the order of the Japanese syllabary of the reading of the phonetic alphabet, and the second level is arranged in the order of the number of strokes of the radical). ) To obtain the desired character by inputting the code and converting it. In some cases, the list is not printed on paper but is digitized.In this case, instead of entering a code, the target character is searched on the display in the same way as on paper, and a pointing device is used. The character may be specified using such as.

【0003】部首入力は、図26に示すように、目的の
字がどの部首に属するかを、通常は紙に印刷された一覧
表から拾い出し、そこに書いてあるコードを入力して目
的の字を得るものである。一覧表が紙に印刷されておら
ず、電子化されている場合もあり、その場合は、コード
を入力するのではなく、ディスプレイ上で紙の上と同じ
ように目的の字を探し出し、ポインティングデバイスな
どを用いてその字を指定することもある。
As shown in FIG. 26, a radical input is usually performed by picking up a radical to which a target character belongs from a list printed on paper and inputting a code written there. This is to get the desired character. In some cases, the list is not printed on paper but is digitized.In this case, instead of entering a code, the target character is searched on the display in the same way as on paper, and a pointing device is used. The character may be specified using such as.

【0004】画数入力は、文字の総画数が同じものを集
め、画数の順にその漢字群を配列した表から、目的の文
字を目視によって検索するものである。紙に印刷された
一覧表から、該当する文字のコードを探し出し、そのコ
ードを入力して目的の文字を得る場合と、一覧表が電子
化されており、ディスプレイ上で紙の上と同じように目
的の文字を探し出し、ポインティングデバイスなどを用
いてその文字を指定する場合とがある。
[0004] The stroke number input collects characters having the same total stroke number, and visually searches for a target character from a table in which the kanji groups are arranged in the order of the stroke number. Find the code of the corresponding character from the list printed on paper and enter the code to obtain the desired character, or if the list is digitized and displayed on the display in the same way as on paper In some cases, a target character is searched for and the character is specified using a pointing device or the like.

【0005】従来の日本語入力装置について記載した公
知文献としては、例えば、特開平2−18661号公報
がある。この公報のものは、音訓入力手段と部首入力手
段と画数入力手段の少なくとも1つの入力手段と、字形
構成要素辞書及び字形構成要素入力手段とによって、そ
れぞれの辞書の共通をとって候補文字を表わすもので、
候補対象漢字の数を減らすことができるというものであ
る。すなわち、読みや部首、画数の情報を複合して、複
数の条件を設定し、目的の文字を絞り込むというもので
ある。
As a known document describing a conventional Japanese input device, there is, for example, Japanese Patent Application Laid-Open No. Hei 2-18661. In this publication, candidate characters are shared by at least one of an on-sound input unit, a radical input unit, and a stroke number input unit, and a glyph component dictionary and a glyph component input unit. To represent,
That is, the number of candidate target kanji can be reduced. That is, information on readings, radicals, and the number of strokes are combined, a plurality of conditions are set, and target characters are narrowed down.

【0006】また、特開平5−12249号公報のもの
は、文書作成時に画面に表示された漢字パターンを、例
えばカーソルで指定すると、部首解析処理手段は、部首
解析用テーブルに基づいて、指定された漢字の部首名及
びその部首の位置を解析し、検索出力手段は、部首解析
処理手段による解析結果に基づいて、指定された漢字の
部首名及びその部首の位置に対応する全ての漢字コード
を部首辞書メモリ手段から検索する。これにより、部首
名がわからない場合でも、同一の部首名を有する漢字を
指定するだけで、目的の漢字を得ることができる。ま
た、目的の漢字を構成する部首名の一部しかわからない
場合でも、その部首名に基づいて目的の漢字を得ること
ができるものである。
In Japanese Unexamined Patent Publication No. Hei 5-12249, when a kanji pattern displayed on a screen at the time of document creation is designated by, for example, a cursor, a radical analysis processing means performs a radical analysis based on a radical analysis table. The radical name of the designated kanji and the position of the radical are analyzed, and the retrieval output means searches the radical name of the designated kanji and the position of the radical based on the analysis result by the radical analysis processing means. All corresponding kanji codes are retrieved from the radical dictionary memory means. Thus, even if the radical name is not known, the target kanji can be obtained only by specifying the kanji having the same radical name. Further, even when only a part of the radical name constituting the target kanji is known, the target kanji can be obtained based on the radical name.

【0007】[0007]

【発明が解決しようとする課題】パソコンや電子手帳な
どの日本語入力が可能な情報機器などにおいて、通常は
読みをかなで入力し、入力されたかなを漢字などに変換
する方式などを用いているが、それだけでは、読みのわ
からない字や記号を入力することができない。そのよう
な文字を入力する場合、従来の方法では、総画数順に漢
字が配列された表を、紙上あるいは電子の形で持ち、画
数を手ががりに目的の字をその表から目視によって検索
していた。あるいは、部首ごとに漢字を配列した表を、
紙上あるいは電子の形で持ち、部首を手がかりに目的の
字を、目視によって検索していた。通常は、部首の画数
順に同じ部首を持った漢字群が配列され、同じ部首を持
った漢字群の中では、総画数の順に字が配列されてい
る。
In an information device such as a personal computer or an electronic organizer that can input Japanese, a method of inputting a reading in a kana and converting the input kana into a kanji or the like is usually used. However, that alone does not allow you to enter characters or symbols that you do not understand. In the case of inputting such characters, in the conventional method, a table in which kanji is arranged in the order of the total number of strokes is held in paper or electronic form, and the number of strokes is used as a clue to visually search the target character from the table. I was Or, a table in which kanji is arranged for each radical,
He held it on paper or in electronic form, and used the radicals as clues to search for the desired character visually. Normally, kanji groups having the same radical are arranged in the order of the number of strokes of the radical, and in the kanji group having the same radical, the characters are arranged in the order of the total number of strokes.

【0008】しかし、総画数より検索する方式だと、同
じ画数を持つ漢字は膨大な数に昇り、そこからひとつの
文字を探し出すのは、非常に困難であり、また、画数が
はっきりと特定できない文字も存在するため、検索はさ
らに困難を極める。また、部首より検索する方式だと、
目的の漢字の部首がきちんとわかっていなければならな
いことが条件となる。漢字によっては、部首が何になる
のかわからないものもあり(例えば、彗星の「彗」の部
首は「彑」である)、その場合、目的の字を探し出すの
は非常に困難である。また、多くの部首では、同じ部首
を持つ文字の数が、非常に多くなり、同様に検索には困
難が伴う。
However, if the search method is based on the total number of strokes, the number of kanji having the same number of strokes increases to an enormous number, and it is very difficult to find one character from them, and the number of strokes cannot be clearly specified. Searching is even more difficult because of the presence of characters. Also, if you search from the radical,
The condition is that you need to know the radical of the target kanji. For some kanji, it is not clear what the radical will be (for example, the comet “com” has the radical “jun”), in which case it is very difficult to find the desired character. Also, for many radicals, the number of characters having the same radical becomes very large, and similarly, there is difficulty in searching.

【0009】また、コード入力の場合、一覧表は通常、
第一水準ならば音読みでのよみがなの50音順に配列さ
れており、もとより読みのわからない字を入力しようと
しているわけであるから、これでは役に立たないことが
わかる。第2水準ならば部首の画数の小さい順に配列さ
れており、目的の字の画数を数えるという手間がかかる
上に、部首のわからない文字を探すには相当手間がかか
る。部首入力の場合は、目的の字の部首がわからない場
合は探すのに大変な手間がかかるし、同じ部首を持つ字
が多く存在する場合の検索も時間がかかる。総画数入力
の場合は、目的の文字の画数を数えるのがまず面倒であ
り、多画の文字であれば、画数の数え間違いなどが発生
して検索の効率が悪い。また、同じ画数の文字も多く存
在するので、目的の文字を探すには手間がかかる。
In the case of code input, the list is usually
If it is the first level, it is arranged in the order of the Japanese syllabary of the reading of the phonetic alphabet, and since it is trying to input a character whose reading cannot be understood from the beginning, it can be understood that this is useless. In the case of the second level, the strokes are arranged in ascending order of the number of strokes of the radical, so that it takes time and effort to count the number of strokes of the target character, and it takes considerable time to search for a character whose radical is unknown. In the case of radical input, if the radical of the target character is not known, it takes a great deal of trouble to search for it, and it takes time to search when there are many characters having the same radical. In the case of inputting the total number of strokes, it is first troublesome to count the number of strokes of the target character. If the character is a multi-stroke character, the number of strokes will be erroneously counted, resulting in poor search efficiency. Also, since there are many characters having the same stroke number, it takes time and effort to search for the target character.

【0010】前述した特開平2−18661号公報に示
されている方法を用いた場合、「読み」はわからないわ
けであるから、部首と画数から目的の文字を検索するわ
けであるが、部首がわからないものに関しては、総画数
入力と同じ条件になるし、部首がわかっても、文字の画
数を数えるという作業は、非常に根気のいる作業であ
り、あまり、効率のいい検索方法であるとは言えない。
一覧表が電子化されている場合も同様で、ディスプレイ
上で表示できる字の数は、紙の上で表示できる数より少
ない場合が多く、その場合、目的の字を探すにはさらに
時間がかかることになる。
When the method disclosed in the above-mentioned Japanese Patent Application Laid-Open No. Hei 2-18661 is used, since the "reading" is not known, the target character is searched from the radical and the number of strokes. For those who do not know the head, the conditions are the same as entering the total number of strokes, and even if you know the radical, counting the number of strokes of the character is a very patient work, and it is a very efficient search method I can't say that.
The same is true when the list is digitized, and the number of characters that can be displayed on the display is often smaller than the number that can be displayed on paper, in which case it takes more time to find the desired character Will be.

【0011】また、類字変換を実現するための類字辞書
を人力で作成することにおいて、形の似ている字を人手
を使って集め、それらの類字度を主観によって評価する
となると、似ている字がまだあるにもかかわらず辞書か
ら洩れてしまったり、類字度の評価が類字グループで統
一されていなかったり、また、使用者と辞書作成者で類
字の評価に違いがある場合など、使用感が著しく損なわ
れる可能性がある。もとより、人手を使ってこの作業を
行うとなると、それにかかる労力・時間(コスト)は大
変なものとなる。
In addition, when a similar-character dictionary for realizing the similar-character conversion is created manually, characters having similar shapes are collected by hand and their similarity is subjectively evaluated. Characters are missing from the dictionary even though there are still characters, the similarity evaluation is not unified in the similarity group, and there is a difference in the similarity evaluation between the user and the dictionary creator In some cases, the feeling of use may be significantly impaired. Needless to say, if this work is performed manually, the labor and time (cost) required for the work become enormous.

【0012】また、前述したように、特開平5−122
49号公報のものは、同じ部首を持つ漢字から目的の字
を検索するだけのものである。本発明はあくまでも、読
みのわからない字を入力するために、「形の似ている字
(=類字)」をキーにして、類字辞書を引き、目的の字
を検索するものである。本発明においても、共通に持つ
部首をキーとして目的の文字を検索する手段を有してい
るが、それはあくまでも一つの手段であり、本発明で
は、部首が違っていても、形が似ている字(「瓦」と
「互」など)も、検索の対象としている。
As described above, Japanese Patent Laid-Open No. 5-122
Japanese Patent Publication No. 49 only searches for a target character from kanji having the same radical. According to the present invention, in order to input a character which cannot be read, a similar character dictionary is searched using a key "character having a similar shape (= similar character)" as a key, and a target character is searched. The present invention also has means for searching for a target character using a common radical as a key, but this is only one means, and in the present invention, even if the radical differs, the shape is similar. Characters ("tile" and "mutual") are also searched.

【0013】また、特開平5−12249号公報におい
ては、ただ単に、部首の同じ字を辞書から拾ってくるだ
けであるが、本発明では、「類字度」という概念を導入
し、より似ている字を候補の先に配列することができる
ようになっている。例えば、特開平5−12249号公
報では、「苑」を入力しようとして、「宛」をキーにし
ても、通常では、「うかんむり」の文字がたくさん出て
きてしまい、効率的に「苑」を見つけることはできな
い。また、部首の位置を指定すれば、もう少し候補を絞
ることができるかもしれないが、この作業自体が非効率
的である。そこで、本発明における辞書の自動生成方法
に従って作成された辞書を用いて類字検索を行えば、特
開平5−12249号公報より遥かに効率的に、読みの
わからない文字を検索することができる。
In Japanese Patent Laid-Open Publication No. Hei 5-12249, the same character of a radical is simply picked up from a dictionary, but the present invention introduces the concept of "degree of similarity". Similar characters can be arranged before candidates. For example, in Japanese Unexamined Patent Publication No. Hei 5-12249, even if the user tries to input "En" and presses "Address" as a key, a large number of characters "Ukanmuri" usually appear, and "En" is efficiently input. I can't find it. In addition, if the position of the radical is specified, the candidates may be narrowed down a little more, but this work itself is inefficient. Therefore, if a similar character search is performed using a dictionary created according to the dictionary automatic generation method according to the present invention, it is possible to search for characters that cannot be read much more efficiently than in JP-A-5-12249.

【0014】本発明は、このような実情に鑑みてなされ
たもので、日本語入力が可能な機器において、読みのわ
からない文字を入力する際、形の似ている文字を集めた
辞書を用いて、その字に形が似ている文字をまず入力
し、前記辞書を用いて目的の字を検索するようにした日
本語入力装置を提供することを目的としている。
The present invention has been made in view of such circumstances, and in a device capable of inputting Japanese, when a character which cannot be read is input, a dictionary which collects characters having similar shapes is used. It is an object of the present invention to provide a Japanese input device in which a character having a shape similar to that of a character is first input, and a target character is searched using the dictionary.

【0015】[0015]

【課題を解決するための手段】本発明は、上記目的を達
成するために、読みのわからない文字を入力する際に、
形の似ている文字で読みのわかっている文字をキー文字
入力する漢字入力手段と、オンライン手書き文字認識用
辞書及び光学文字認識用辞書を利用して、似ている文字
群と該文字群の各文字の類字度を集めて自動生成される
類字辞書と、前記漢字入力手段により入力されたキー文
字に基づいて前記類字辞書から形の似ている文字を検索
し、類字度を評価する類字検索手段とを備えた日本語入
力装置であって、前記漢字入力手段から見方の異なる複
数のキー文字を入力し、該キー文字ごとに前記類字辞書
から形の似ている文字を検索することにより目的とする
文字の候補を絞り込み、キー文字と類字度の高い順に候
補文字を表示させる日本語入力装置であることを特徴と
する。
SUMMARY OF THE INVENTION The present invention, in order to achieve the above object, when entering read Minowakara no characters,
Kanji input means for inputting characters with similar shapes and known readings as key characters, and for online handwritten character recognition
Using a dictionary and an optical character recognition dictionary, similar character dictionary and similar character dictionary automatically generated by collecting similar character degrees of each character of the character group, and input by the kanji input means has been to search for a character that is similar in form from the previous SL class character dictionary on the basis of the key characters, Japanese input that includes a Luigi search means for evaluating the degree of Luigi
Input device, wherein the kanji input means has a different viewpoint.
Input the number of key characters, and for each key character,
By searching for characters with similar shapes from
Narrow down character candidates and sort in order of key character and similarity
It is a Japanese input device that displays complementary characters.
I do.

【0016】[0016]

【作用】前記構成を有する本発明の日本語入力装置は、
読みのわからない文字の検索を簡単に行うことができ
る。すなわち、ほとんどの漢字は、それほど多くない、
いくつかの部品から成ると考えられる。例えば、「腕」
という字は、「月」「宀」「夕」「巳」という4つの部
品から成る。また、「苑」という字は、
According to the present invention, there is provided a Japanese-language input device comprising:
It is possible to easily search for characters that cannot be read. That is, most kanji are not so many,
It is thought to consist of several parts. For example, "arm"
The character is composed of four parts: "moon", "shin", "evening", and "mi". Also, the word "en"

【0017】[0017]

【表1】 [Table 1]

【0018】「夕」「巳」の3つの部品から成る。
「腕」と「苑」では「夕」「巳」の部品が共通であり、
従って、この二つの字は、似ているということが言え
る。共通の部品の割合が多いほど、二つの字の形の「類
字度」は高いということが言える。こういったタイプの
形の似ている字の集合は、オンライン手書き文字認識の
ための、認識用の辞書を利用して作成することができ
る。また、部品が共通でなくても、例えば「互」と
「瓦」のように、形が似ている文字もまたある。これ
は、光学文字認識用の辞書を利用して作成することがで
きる。
It consists of three parts, "evening" and "snake".
The parts of "evening" and "snake" are common in "arm" and "en",
Therefore, it can be said that these two characters are similar. It can be said that the greater the proportion of common parts, the higher the “similarity” of the two characters. A collection of similar characters of these types can be created using a recognition dictionary for online handwritten character recognition. In addition, even if the parts are not common, there are also characters having similar shapes, such as "mutual" and "tile". This can be created using a dictionary for optical character recognition.

【0019】このように、形の似ている字と、それがど
れだけ似ているかの指標(類字度)を要素としてもつ
「類字辞書」を用意し、この辞書を利用して読みのわか
らない文字を検索する。そのためには、まず、入力した
いが読みのわからない文字に似た字を、通常のかな漢字
変換方式などを用いて入力する。そして、その字をキー
にして、類字辞書を引く。同様に、別の似ている字をキ
ーにして類字辞書を引き、目的の字を絞り込んでゆく。
このようにして、(複数の)キー文字から候補を得、そ
の中から目視で目的の字を見つけ出す。従来の総画数表
や部首別表を目視して探し出すことに比べ、類字辞書を
引いて検索すると、少ない候補文字の中から検索すれば
良いため、検索時間は圧倒的に有利になる。
As described above, a “similarity dictionary” having characters having similar shapes and an index (similarity degree) indicating how similar the characters are prepared is prepared. Search for unknown characters. For this purpose, first, a character similar to a character that the user wants to input but cannot understand is input using a normal kana-kanji conversion method or the like. Then, using that character as a key, a similar dictionary is drawn. Similarly, a similar character dictionary is drawn using another similar character as a key to narrow down a target character.
In this way, candidates are obtained from the (plural) key characters, and a target character is visually found therefrom. Compared to a conventional total stroke count table or radical table, the search time is overwhelmingly advantageous when searching by pulling a similar dictionary, since only a small number of candidate characters need to be searched.

【0020】[0020]

【実施例】実施例について、図面を参照して以下に説明
する。図1は、本発明による日本語入力装置の一実施例
を説明するための構成図で、図中、1は漢字入力手段、
2は類字検索部、3は類字辞書、4はバッファ管理部、
5はバッファ部、6は候補表示・選択部、7はかな漢字
変換辞書等である。漢字入力手段1は、類字入力以外の
漢字入力を行うもので、かな漢字変換手段などで実現す
る。該漢字入力手段1によりキー文字を与えると類字検
索部2により類字辞書3を検索する。類字辞書3は、日
本語入力が可能な機器において、形の似ている文字群と
その類字度を集めたものである。前記類字検索部2によ
り候補文字を与えると、バッファ管理部4ですでにバッ
ファ部5に記憶されている文字と新しい候補文字とから
新しいバッファを作成し、候補表示・選択部6で候補文
字を表示・選択する。なお、かな漢字変換辞書7は、前
記漢字入力手段1によるキー文字を与える場合に、必要
に応じて用いられるもので、かならずしも必要とするも
のではない。
Embodiments will be described below with reference to the drawings. FIG. 1 is a configuration diagram for explaining one embodiment of a Japanese input device according to the present invention, wherein 1 is a kanji input means,
2 is a type search unit, 3 is a type dictionary, 4 is a buffer management unit,
Reference numeral 5 denotes a buffer unit, 6 denotes a candidate display / selection unit, and 7 denotes a kana-kanji conversion dictionary. The kanji input means 1 performs kanji input other than similar character input, and is realized by kana-kanji conversion means or the like. When a key character is given by the kanji input means 1, a similar character dictionary 3 is searched by a similar character search unit 2. The type dictionary 3 is a collection of characters having similar shapes and the degree of similarity in a device capable of inputting Japanese. When the candidate character is given by the type search unit 2, the buffer management unit 4 creates a new buffer from the character already stored in the buffer unit 5 and the new candidate character, and the candidate display / selection unit 6 Display and select. The kana-kanji conversion dictionary 7 is used as necessary when giving key characters by the kanji input means 1, and is not always necessary.

【0021】図2は、類字辞書の構造を示す図である。
類字変換を行うためには、まず類字辞書を用意する必要
がある。ある字に注目し、その字に似ている字を集め
る。例えば、「腕」という字をキーにそれに似ている字
を列挙してみると、「椀婉宛苑蛇怨」などの字が見つか
る。これらはお互いに形が似ており、その一群の字の集
合を「類字グループ」と呼ぶ。類字グループの集合が類
字辞書である。そして、これら類字グループの要素文字
に点数を付ける。この点数は、キーとなる字に対する類
字度であり、点数が大きいほどより形が似ているという
ことを意味する。類字辞書は、すべての文字をキーにし
てそれに似た字を羅列し、各自に類字度を付加したもの
の集合である。
FIG. 2 is a diagram showing the structure of the type dictionary.
In order to perform type conversion, a type dictionary must first be prepared. Focus on a character and collect similar characters. For example, if you list the similar characters with the word "arm" as a key, you will find characters such as "Bai-fuen-en-en". These are similar in shape to each other, and a group of characters is called a “character group”. A set of type groups is a type dictionary. Then, points are assigned to the element characters of these subscript groups. The score is the degree of similarity with respect to a character serving as a key, and the higher the score, the more similar the shape. The type dictionary is a set of characters in which all the characters are used as keys and similar characters are listed, and a degree of similarity is added to each character.

【0022】図2において、まず、JISコードの順
に、キー文字に対する類字グループへのポインタが置か
れる。辞書の先頭は、JISコードの1番目である、2
121(16進数)の文字(全角スペース)に対する、
類字グループへのポインタが置かれることになる。その
ポインタの先には、全角スペースの類字文字とその類字
度が配列される。以下、JISコード順に、類字グルー
プへのポインタが羅列される。
In FIG. 2, first, a pointer to a similar character group for a key character is placed in the order of the JIS code. The head of the dictionary is the first of the JIS code, 2
For 121 (hexadecimal) characters (full-width space)
A pointer to the character group will be placed. At the end of the pointer, the characters of the double-byte space and the degree of the similar characters are arranged. Hereinafter, pointers to the character groups are listed in JIS code order.

【0023】例えば、「腕」の類字は、「腕」のJIS
コードである4F53のポインタ格納場所に格納されて
いるポインタが示す場所から、その類字度と共に配列さ
れている。「腕」の類字として「椀」「婉」「宛」
「苑」「蛇」「怨」の6字があり、類字度がそれぞれ、
90、80、70、60、50、40と仮定する。そう
すると、「腕」の類字グループへのポインタが示す場所
から、「椀,90,婉,80,宛,70,苑,60,
蛇,50,怨,40,0」と配列されることになる(最
後の0は、エンドコード)。このように、すべてのJI
S文字に関して、その類字を配列した辞書を類字辞書と
して使用する。
For example, the type of “arm” is JIS of “arm”.
The codes are arranged from the location indicated by the pointer stored in the pointer storage location of the code 4F53 together with the degree of similarity. "Bowl", "Eupai", "To"
There are six characters, "En", "Snake", and "Grudge".
Assume 90, 80, 70, 60, 50, 40. Then, from the location indicated by the pointer to the character group of "arm", "bowl, 90, euphem, 80, addressed to, 70, garden, 60,
Snake, 50, grudge, 40, 0 "(the last 0 is an end code). Thus, all JI
For S characters, a dictionary in which the similar characters are arranged is used as a similar character dictionary.

【0024】次に、類字辞書を検索して入力した文字に
似た字を出力する動作について説明する。図3は、類字
変換の手順を示すフローチャートである。以下、各ステ
ップ(S)に従って順に説明する。読みのわからない文
字を入力するために、この方式では、形の似ている字で
読みのわかっている文字をまず入力する(S1)。これ
は、通常のかな漢字変換を用いるなどして、入力する。
そして、その文字をキーにして、類字辞書を検索する。
Next, the operation of searching the type dictionary and outputting a character similar to the input character will be described. FIG. 3 is a flowchart showing the procedure of the type conversion. Hereinafter, description will be made in order according to each step (S). In order to input a character whose reading is unknown, in this method, a character whose shape is similar and whose reading is known is first input (S1). This is input using, for example, normal kana-kanji conversion.
Then, using that character as a key, a similarity dictionary is searched.

【0025】次に、キー文字のJISコードをもとに、
その文字の類字グループを指すポインタを格納している
アドレスを算出する。そのアドレスからポインタを読み
出し、類字グループの先頭アドレスを得る。そのアドレ
スからキー文字の1つ目の類字及びその類字度を読み出
し、バッファに格納する。ポインタを進め次の類字及び
その類字度を読み出す。エンドコードを読み出すまでこ
の動作を続ける。これによって、バッファには、キー文
字の全ての類字と類字度が格納されることになる(S
2)。
Next, based on the JIS code of the key character,
The address storing the pointer indicating the character group of the character is calculated. The pointer is read from the address to obtain the head address of the character group. The first character of the key character and its character degree are read from the address and stored in the buffer. The pointer is advanced to read the next type and its degree. This operation is continued until the end code is read. As a result, all the similar characters and similar character degrees of the key characters are stored in the buffer (S
2).

【0026】同様に、別のキー文字がある場合(S
4)、同じ検索を行い、類字及び類字度を読み出す。そ
して、そのキー文字から検索された類字の中に、既にバ
ッファにある文字と同じものがあれば、その類字度を、
バッファにある文字の類字度に加え、それをその文字の
新たな類字度とする。つまり、別々のキー文字から同じ
文字が抽出された場合、類字度を足して、候補表示の優
先順位をあげるのである。新たに読み出された類字が、
バッファの中にない場合は、バッファにその文字を加え
る。バッファが溢れる場合は、類字度の小さいものから
削除する(S5)。
Similarly, when there is another key character (S
4) The same search is performed, and the type and degree of similarity are read out. Then, if any of the similar characters searched from the key character is the same as the character already in the buffer, the similarity degree is calculated as
In addition to the typology of the character in the buffer, make it the new typography of that character. In other words, when the same character is extracted from different key characters, the degree of similarity is added to increase the priority of candidate display. The newly read character class is
If not, add the character to the buffer. If the buffer overflows, the buffer with the lower similarity is deleted (S5).

【0027】このようにして、キー文字を複数指定し、
探している可能性の高い文字を優先して前の方に表示す
ることにより、目的の文字を探し易くすることができ
る。類字度順に配列された候補文字の中から目的の文字
を選択し、これをもって類字変換が完了する(S6)。
In this manner, a plurality of key characters are designated,
By preferentially displaying a character that is likely to be searched for in the front, it is possible to easily search for a target character. The target character is selected from the candidate characters arranged in the order of the similarity degree, and this completes the similarity conversion (S6).

【0028】図4は、図3に示す類字変換の手順に従っ
て目的の文字を選択する動作例を示すフローチャートで
ある。以下、各ステップ(S)に従って順に説明する。
ここでは、「怨」という字を入力したいのだが、その読
みがわからない場合を想定して考える。まず、この字に
似ている字を、キー文字として入力する必要がある。こ
こでは、「宛」という字をまず、キー文字として入力し
ている。キー文字の入力は、通常のかな漢字変換などを
用いて行う(S11)。そして、このキー文字を類字変
換する。候補文字として、「椀婉宛苑蛇怨…」が見つか
り、類字度順に候補文字として表示される(S12)。
FIG. 4 is a flowchart showing an operation example of selecting a target character in accordance with the procedure of the type conversion shown in FIG. Hereinafter, description will be made in order according to each step (S).
Here, we want to input the word "grudge", but suppose that we do not know the reading. First, it is necessary to enter a character similar to this character as a key character. Here, the character "to" is first input as a key character. The input of the key character is performed by using a normal kana-kanji conversion or the like (S11). Then, the key characters are converted into similar characters. As a candidate character, "Bai Yi Yuen Jiangyuan ..." is found and displayed as a candidate character in order of similarity (S12).

【0029】次に、キー文字「怒」を入力する(S1
3)。このキー文字を類字変換すると、「怨努恋忘…」
などが候補として上がるが、すでに「宛」を類字変換し
た候補が上がっているため、それと統合した新しい候補
文字が表示されることになる(S14)。ここでは、
「宛」と「怒」を類字変換し、目的の「怨」が、候補の
先頭に来ていることがわかる(S15)。
Next, the key character "anger" is input (S1).
3). When this key character is converted into a typographical character, "Grave effort love forget ..."
And so on, but since candidates for which the character conversion of “address” has already been performed have already been made, new candidate characters integrated with the candidates are displayed (S14). here,
The “address” and the “anger” are converted into characters, and it is found that the target “grudge” is at the head of the candidate (S15).

【0030】次に、類字辞書の自動作成方法について説
明する。この類字辞書の自動作成方法には、(1)光学
文字認識用辞書を用いる場合と、(2)オンライン手書
き文字認識用辞書を用いる場合とがある。ある文字と、
別の文字がどれだけ似ているかを定量的に表現するのは
難しい。また、個々の文字について、それに形の似てい
る文字を見つけ、類字度を評価して、類字辞書を作成す
るのは、人手を使って行うため、大変な労力・時間を必
要とする。ここでは、光学文字認識やオンライン手書き
認識の手法を用い、類字辞書の自動生成を行う手法を説
明する。
Next, a method of automatically creating a type dictionary will be described. There are two methods for automatically creating this type dictionary: (1) a dictionary for optical character recognition, and (2) a dictionary for online handwritten character recognition. A character,
It is difficult to quantify how similar another character is. In addition, for each character, finding a character similar in shape to it, evaluating the similarity degree, and creating a similarity dictionary is performed manually, requiring a great deal of labor and time. . Here, a method of automatically generating a similar character dictionary by using an optical character recognition method or an online handwriting recognition method will be described.

【0031】まず、光学文字認識用辞書を用いて類字辞
書を自動生成する方法について説明する。これは通常、
認識すべき各文字のドット情報をベクトルの形で持ち、
これと、OCR(Optical Character Reader:スキャナ
など)で入力されたドットパターンとのマッチングを行
うものである。図5(a),(b)にその概念を示す。
ここでは、8ドット×8ドットの文字を認識することを
考える。
First, a method of automatically generating a similar character dictionary using an optical character recognition dictionary will be described. This is usually
Holding dot information of each character to be recognized in vector form,
This is to match with a dot pattern input by an OCR (Optical Character Reader: scanner or the like). FIGS. 5A and 5B show the concept.
Here, it is assumed that a character of 8 dots × 8 dots is recognized.

【0032】まず、8ドット×8ドットの格子に、文字
パターンが記録されている。それを、ドットがONにな
っている部分を1、OFFになっている部分を0とし、
左上から順にその値を並べ、64次元のベクトルとして
表現する。このベクトルが、認識対象としている各文字
について存在している。この各文字のベクトルの集合
が、文字認識用辞書である。
First, a character pattern is recorded on a grid of 8 dots × 8 dots. It is assumed that the portion where the dot is ON is 1 and the portion where the dot is OFF is 0,
The values are arranged in order from the upper left, and expressed as a 64-dimensional vector. This vector exists for each character to be recognized. The set of vectors of each character is a character recognition dictionary.

【0033】ここで、OCRから文字の入力がある。1
文字8ドット×8ドットになるよう正規化されたデータ
を用い、辞書データとのマッチングを行う。辞書作成時
と同様に、入力された8ドット×8ドットのデータを6
4次元のベクトルにし、それと辞書に記録されている各
文字のベクトルとの距離を計算する。この2つのベクト
ルの距離が一致度である。辞書にある全ての文字との一
致度を計算し、一番、一致度が高いものを、認識結果と
して出力するのが、光学文字認識の基本手法である。
Here, a character is input from the OCR. 1
Matching with dictionary data is performed using data normalized to be 8 dots × 8 dots of characters. As in the case of creating a dictionary, the input 8 dot × 8 dot data is
A four-dimensional vector is calculated, and the distance between the vector and each character vector recorded in the dictionary is calculated. The distance between these two vectors is the degree of coincidence. The basic method of optical character recognition is to calculate the degree of coincidence with all the characters in the dictionary and output the one with the highest degree of coincidence as a recognition result.

【0034】[0034]

【数1】 (Equation 1)

【0035】従って、この光学文字認識の手法を用い、
辞書データとOCRからの入力データのマッチングを行
うのではなく、辞書にある各文字間でマッチングを行
う。マッチングの手法は全く同じで、各文字の64次元
ベクトル間の距離を求め、それを類字度とする。各文字
について、一定の類字度以上を持つ文字とその類字度
を、目的文字の類字グループとして辞書に登録する。
Therefore, using this optical character recognition method,
Rather than matching dictionary data and input data from the OCR, matching is performed between each character in the dictionary. The matching method is exactly the same, and the distance between the 64-dimensional vectors of each character is determined, and is used as the similarity. For each character, a character having a certain degree of similarity and the degree of similarity are registered in the dictionary as a similarity group of the target character.

【0036】以下、光学文字認識用辞書を用いて類字辞
書を自動生成する方法について、さらに詳細に説明す
る。類字度の評価法 光学文字認識の原理について説明すると、システムが内
部に持っている文字のマトリックスパターンと入力され
たマトリックスパターンとが、どれだけ似ているかとい
うことを、そのマトリックスから得られるベクトルデー
タの距離でもって評価するというものである。話しを簡
単にするために、3ドット×3ドットのデータで説明す
る。
Hereinafter, a method of automatically generating a similar dictionary using an optical character recognition dictionary will be described in more detail. To explain the principle of optical character recognition, the degree of similarity between the matrix pattern of characters stored in the system and the input matrix pattern is determined by the vector obtained from the matrix. The evaluation is based on the distance of the data. For the sake of simplicity, the description will be made using data of 3 dots × 3 dots.

【0037】図6(a)を辞書にあるマトリックスパタ
ーン、図6(b)を入力パターンとする。図6(a)、
図6(b)の3×3ドットのマトリックスパターンは、
ドットがある部分を1、ない部分を0とすると、3×3
=9個の0、1の羅列、すなわち、9次元のベクトルデ
ータで表わすことができる。これら、2つの9次元ベク
トルデータの「距離」は、以下の表2で表わされる。
FIG. 6A shows a matrix pattern in a dictionary, and FIG. 6B shows an input pattern. FIG. 6 (a),
The matrix pattern of 3 × 3 dots in FIG.
If the part with dots is 1 and the part without dots is 0, 3 × 3
= 9 rows of 0s and 1s, that is, 9-dimensional vector data. The “distance” between these two pieces of 9-dimensional vector data is shown in Table 2 below.

【0038】[0038]

【数2】 (Equation 2)

【0039】従って、辞書にあるパターンと、入力パタ
ーンが全く同じであれば、類字度は1となり、2つのパ
ターンがずれていればいる程、0に近くなる。この値を
類字度とする。
Therefore, if the pattern in the dictionary and the input pattern are exactly the same, the similarity degree becomes 1, and the closer the two patterns are shifted, the closer to 0. This value is used as the similarity degree.

【0040】マトリックスデータより類字辞書を作成す
る方法 図7は、マトリックスデータより類字辞書を作成するた
めのブロック図で、図中、11は光学文字認識用辞書、
12は類字度評価部、13は光学文字認識版類字辞書で
ある。光学文字認識用辞書11には、入力されたマトリ
ックスパターンと比較するための、各文字のマトリック
スパターンデータがストアされており、通常は、図8に
示すように、文字コード順に並んでいる。図8に示すマ
トリックスパターンデータから、類字辞書を自動作成す
るために、類字度評価部において、前述した類字度の計
算法により、まず、図8の辞書の最初の文字(JISコ
ード2121の文字)と、辞書の残りの文字全部との間
の類字度をそれぞれ計算する。そして、ある一定の類字
度(例えば0.7)以上の文字について、その文字をJ
ISコード2121の文字の類字として類字辞書に登録
する。
Create a similar dictionary from matrix data
That method Figure 7 is a block diagram for creating Luigi dictionary from matrix data in Fig, 11 is an optical character recognition dictionary,
Reference numeral 12 denotes a type character evaluation unit, and reference numeral 13 denotes an optical character recognition version type dictionary. The optical character recognition dictionary 11 stores matrix pattern data of each character to be compared with the input matrix pattern, and is usually arranged in the order of character codes as shown in FIG. In order to automatically create a similar character dictionary from the matrix pattern data shown in FIG. 8, the similar character evaluation unit first calculates the first character (JIS code 2121) of the dictionary of FIG. ) And all the remaining characters in the dictionary. Then, for a character having a certain degree of similarity (for example, 0.7) or more, the character
The character code of the IS code 2121 is registered in the type dictionary.

【0041】次に、JISコード2122の文字と、そ
れ以外の、辞書に含まれる全部の文字との類字度を計算
し、同様にして、一定の類字度以上の文字を、JISコ
ード2122の文字の類字として、類字辞書に登録す
る。同様にして、すべての文字について、残りの文字と
の類字度の値が一定以上の文字を、その文字の類字とし
て類字辞書を作成するのである。このようにして、光学
文字認識版類字辞書13ができる。
Next, the degree of similarity between the character of the JIS code 2122 and all other characters included in the dictionary is calculated, and similarly, a character having a certain degree of similarity or more is converted to the JIS code 2122. Is registered in the type dictionary. Similarly, for all characters, a character dictionary whose similarity degree with the remaining characters is equal to or greater than a certain value is created as a character class of the character. In this way, the optical character recognition version type dictionary 13 is created.

【0042】以上が、光学文字認識用辞書を用いて類字
辞書を自動作成する方法についての説明であるが、次
に、オンライン手書き文字認識用辞書を用いて類字辞書
を自動作成する方法について説明する。
The above is a description of a method of automatically creating a similar character dictionary using the optical character recognition dictionary. Next, a method of automatically creating a similar character dictionary using the online handwritten character recognition dictionary will be described. explain.

【0043】図9は、オンライン手書き文字認識の手法
を説明するための図で、図10は、オンライン手書き文
字認識用の辞書構造の概念図である。オンライン手書き
文字認識であるが、これは、文字を単純なストローク
(基本ストローク)の組合せとして捉え、オンラインに
よる手書きの入力を基本ストロークごとに認識し、基本
ストロークの集合がサブパターンで、そのサブパターン
の集合が文字という風に、ボトムアップ的に文字を認識
するものである。
FIG. 9 is a diagram for explaining the method of online handwritten character recognition, and FIG. 10 is a conceptual diagram of a dictionary structure for online handwritten character recognition. Online handwritten character recognition is based on the recognition of characters as a combination of simple strokes (basic strokes), recognition of online handwritten input for each basic stroke, and a set of basic strokes as subpatterns. Is a character that recognizes characters from the bottom up like a character.

【0044】従って、オンライン手書き文字認識用辞書
には、文字がどのようなサブパターンから構成されてい
るのかを示す情報があり、これを類字辞書の生成に役立
てる。すなわち、サブパターンとは、認識のアルゴリズ
ムにもよるが、漢字における、へん、つくり、あるい
は、それ自身が別の漢字になるような漢字の構成部品で
あり、ほとんどの漢字はいくつかのサブパターンの組合
せで構成されている。従って、これらサブパターンを共
有する文字どうしは形が似ているということになり、共
有する割合が大きいほど、類字度が高いといえる。
Therefore, the online handwritten character recognition dictionary has information indicating what kind of sub-patterns a character is composed of, and this information is used to generate a similar character dictionary. In other words, a sub-pattern is a component of a kanji that depends on the recognition algorithm, but is a part of the kanji that is different from the other kanji. It is composed of a combination of Therefore, the characters sharing these sub-patterns have similar shapes, and it can be said that the greater the sharing ratio, the higher the degree of similarity.

【0045】例えば、「腕」という字は、「月」「宀」
「夕」「巳」の4つのサブパターンで構成されている。
サブパターンの一致率が高いほど、各文字間の類字度が
高くなるように設定する。また、出現頻度の高いサブパ
ターンほど、類字度へのウェイトを高くすることによ
り、より正確な辞書を生成することができる。そのよう
な方法で、全ての文字に関して、他の文字との類字度を
計算し、一定の類字度以上を持つ文字とその類字度を、
目的文字の類字グループとして辞書に登録する。
For example, the characters "arm" are "moon" and "shin".
It is composed of four sub-patterns, “evening” and “snake”.
The degree of similarity between the characters is set to be higher as the matching rate of the sub-pattern is higher. Further, a more accurate dictionary can be generated by increasing the weight to the similarity degree for a sub-pattern having a higher appearance frequency. In such a manner, for all characters, the degree of similarity with other characters is calculated, and characters having a certain degree of similarity or more and the degree of similarity are calculated.
Register in the dictionary as a similar character group of the target character.

【0046】以下、オンライン手書き文字認識用辞書を
用いて類字辞書を自動生成する方法についてより詳細に
説明する。類字度の評価法 オンライン手書き文字認識用辞書は、図10に示すよう
な構成になっている。この例では、「結」は「糸」
「士」「口」の3つのサブパターンから構成され、
「詰」は、「言」「士」「口」の3つのサブパターンか
ら構成されていることを示している。具体的には、辞書
は各々図11〜図13に示すような構成になっている。
Hereinafter, a method of automatically generating a similar character dictionary using the online handwritten character recognition dictionary will be described in more detail. Evaluation method of similarity degree The dictionary for online handwritten character recognition has a configuration as shown in FIG. In this example, "tie" is "yarn"
It is composed of three sub-patterns, “shi” and “mouth”,
“Zu” indicates that it is composed of three sub-patterns of “word”, “shi”, and “mouth”. More specifically, the dictionaries are configured as shown in FIGS.

【0047】図11に示す基本辞書には、文字(「詰」
「結」など)が、どういったサブパターンから構成され
ているかを示す情報が含まれている。図12に示すサブ
パターン辞書には、各サブパターンが、どういった基本
ストロークから構成されているかを示す情報が含まれて
いる。図13に示す基本ストローク辞書には、各基本ス
トロークがどういうものかを示す情報が含まれている。
The basic dictionary shown in FIG.
“Connection”) includes information indicating what kind of sub-pattern is formed. The sub-pattern dictionary shown in FIG. 12 includes information indicating what basic stroke each sub-pattern is composed of. The basic stroke dictionary shown in FIG. 13 includes information indicating what each basic stroke is.

【0048】さて、類字度の評価法であるが、2つの文
字の間で共通のサブパターンが多いほど、2つの文字は
より似ていると言うことができる。例えば、「苑」
「宛」「草」の3つの文字について考えてみる。それぞ
れの文字は、図14に示すようなサブパターンから構成
されるとする(サブパターンの選び方は、認識システム
により違っている)。
Now, in the evaluation method of similarity, it can be said that the more common subpatterns are between two characters, the more similar the two characters are. For example, "En"
Consider the three letters "to" and "grass". It is assumed that each character is composed of a sub-pattern as shown in FIG. 14 (the selection of the sub-pattern differs depending on the recognition system).

【0049】「苑」と「宛」では、「夕」「巳」が共通
であり、3つのサブパターンのうち、2つが共通と言う
ことになる。一方、「苑」と「草」では、
The "evening" and the "address" are common between "en" and "address", and two of the three subpatterns are common. On the other hand, in "En" and "Kusa",

【0050】[0050]

【表2】 [Table 2]

【0051】が共通であり、同じく3つのサブパターン
のうち、1つが共通と言うことになる。従って、ごく単
純に考えれば、「苑」と「宛」の類字度は2/3=0.
67、「苑」と「草」の類字度は、1/3=0.33と
いうことになる。
Are common, and one of the three sub-patterns is also common. Therefore, if we think very simply, the typographical degree of “En” and “To” is 2/3 = 0.
67. The degree of typology of “En” and “Kusa” is 1/3 = 0.33.

【0052】しかし、共通なサブパターンの比率のみを
2つの文字の類字度とすると、類字度が同じ値のものが
数多く出現してしまい、これで構成した辞書を用いる
と、候補が極端に多かったり、少なかったり、というこ
とになり、本発明の本来の目的から外れてしまう。そこ
で、サブパターンごとに重みを設定することにより、こ
の問題を解決することができる。いま仮に、図15に示
すように重みを設定したとする。
However, if only the ratio of common sub-patterns is the similarity of two characters, many characters having the same similarity will appear. In other words, there are many or few, which deviates from the original purpose of the present invention. Therefore, this problem can be solved by setting a weight for each sub-pattern. Now, suppose that weights are set as shown in FIG.

【0053】重み付けの原則は、「多くの文字に共通に
現れるものは小さく、滅多に現れないものほど大きくす
る」ということである。例えば、「くさかんむり」や
「うかんむり」を持った文字は非常に多く存在し、従っ
て、これらを共通に持つ文字どうしは、それほど似てい
るとは思わないであろう。しかし、「巳」のように、そ
れほど多くの文字に現れないサブパターンを共通に持つ
文字どうしは、より似ていると感じるはずである。
The principle of the weighting is that "things that appear in many characters in common are small, and those that rarely appear are increased in size". For example, there are so many characters that have "Kusakanri" or "Ukaneri", and characters that have these in common will not seem to be very similar. However, characters that have sub-patterns that do not appear in so many characters, such as “snake”, should feel more similar.

【0054】従って、サブパターンの出現頻度に合わせ
て重み付けを行うことにより、より似ていると感じるで
あろう文字どうしの類字度を高くすることができる。こ
の重みに関しては、全ての文字のサブパターンの出現頻
度を調べ、その値に比して決定することが原則となる
が、利用者の主観により、似ていると感じるものは、必
ずしも出現頻度に依存するとは限らない。従って、より
使い易い辞書を作成するためには、重みの調整が必要と
なる。
Therefore, by performing weighting in accordance with the appearance frequency of the sub-pattern, it is possible to increase the degree of similarity between characters that may be more similar. Regarding this weight, it is a rule that the appearance frequency of all character sub-patterns is examined and determined in comparison with the value. It does not always depend. Therefore, in order to create a dictionary that is easier to use, it is necessary to adjust the weight.

【0055】さて、図15に示す重みにしたがい、
「苑」と「宛」、「苑」と「草」の類字度を計算する
と、図16(a)〜(d)に示すようになる。図16
(a)に示す重みにしたがうと、共通なサブパターンは
「夕」と「巳」だから、「苑」から見た「宛」の類字度
は、図16(b)に示すように0.86となる。また、
図16(c)に示す重みにしたがうと、共通なサブパタ
ーンは
Now, according to the weights shown in FIG.
When the typologies of “En” and “To” and “En” and “Kusa” are calculated, the results are as shown in FIGS. FIG.
According to the weights shown in (a), since the common sub-patterns are "evening" and "snake", the typographic degree of "address" viewed from "en" is 0. 0 as shown in Fig. 16 (b). 86. Also,
According to the weights shown in FIG. 16C, the common sub-pattern is

【0056】[0056]

【表3】 [Table 3]

【0057】だから、「苑」から見た「草」の類字度
は、図16(d)に示すように0.14となる。この式
を一般化すると、文字Aから見た文字Bの類字度は、図
17に示すようになる。この式を見ればわかる通り、類
字度は0から1の値をとり、1に近いほど類字度が高い
ということになる。
Therefore, the degree of typology of "grass" viewed from "en" is 0.14 as shown in FIG. When this formula is generalized, the similarity of the character B as viewed from the character A is as shown in FIG. As can be seen from this equation, the degree of similarity takes a value from 0 to 1, and the closer to 1, the higher the degree of similarity.

【0058】オンライン手書き認識用辞書から類字辞書
を作成する方法 図18は、オンライン手書き認識用辞書から類字辞書を
作成するためのブロック図で、図中、21はオンライン
手書き文字認識用辞書、22は類字度評価部、23はオ
ンライン手書き文字認識版類字辞書、24は重み評価
部、25は重みテーブルである。前述した図11〜図1
3に示す辞書により、図17の類字度評価法を用いて類
字辞書を自動生成する。
From a dictionary for online handwriting recognition to a similar character dictionary
Method Figure 18 to create is a block diagram for creating Luigi dictionary online handwriting recognition dictionary, in the figure, 21 is line handwritten character recognition dictionary, 22 Luigi degree evaluation unit, 23-line handwritten Character recognition version type dictionary, 24 is a weight evaluation unit, and 25 is a weight table. FIGS. 11 to 1 described above.
The dictionary shown in FIG. 3 automatically generates a type dictionary using the type evaluation method shown in FIG.

【0059】まず、オンライン手書き文字認識用辞書2
1を用いて、重み評価部24によりサブパターンの重み
テーブル25を作成する。図11に示す基本辞書の全て
の文字を調べ、サブパターンごとにその数をカウントす
る。最も多くカウントされたサブパターンの重みを1と
して、サブパターンの重みを正規化し、重みテーブル2
5を作成する。前述したように、主観による類字度の影
響を考慮した重みの調整を行うことが望ましい。次に、
その重みに従って、類字度評価部22により、ある文字
とその残りの文字との類字度を計算する。その類字度が
一定以上(例えば0.7以上)のものを、その文字の類
字として、一定以上の類字度を持つものを類字辞書に登
録して、類字辞書23を作成する。
First, the online handwritten character recognition dictionary 2
The sub pattern weight table 25 is created by the weight evaluator 24 using 1. All characters in the basic dictionary shown in FIG. 11 are checked, and the number is counted for each sub-pattern. The weight of the sub-pattern is normalized by setting the weight of the sub-pattern that has been counted the most as 1, and the weight table 2
Create 5. As described above, it is desirable to adjust the weight in consideration of the influence of the degree of similarity due to subjectivity. next,
According to the weight, the similarity evaluation unit 22 calculates the similarity of a certain character and the remaining characters. A character having a similarity degree of a certain degree or more (for example, 0.7 or more) is registered as a character having a similarity degree of a certain degree or more in a similarity dictionary, and a similarity dictionary 23 is created. .

【0060】以上が、オンライン手書き文字認識用辞書
を用いて類字辞書を自動生成する方法についての説明で
ある。次に、光学文字認識版類字辞書とオンライン手書
き文字認識版類字辞書の統合について説明する。前述の
ようにして生成した光学文字認識用辞書から作成した類
字辞書と、オンライン手書き文字認識用辞書から作成し
た類字辞書とをひとつにまとめ、図2に示すような類字
変換のための類字辞書とする。
The above is a description of a method for automatically generating a similar dictionary using an online handwritten character recognition dictionary. Next, integration of the optical character recognition version type dictionary and the online handwritten character recognition version type dictionary will be described. The similar character dictionary created from the optical character recognition dictionary generated as described above and the similar character dictionary created from the online handwritten character recognition dictionary are combined into one, and the similar character dictionary shown in FIG. A type dictionary.

【0061】具体的には、一つのキー文字に対し、光学
文字認識版類字辞書とオンライン版類字辞書からそれぞ
れ類字を取り出し、それぞれに適当な重みを付けて類字
度を足し合わせる。「音」の類字が図19(類字度は満
点が100になるよう正現化している)に示すようにな
っており、光学文字認識版の重みを0.4とし、オンラ
イン版の重みを0.6として「音」の総合類字度を計算
すると、図20に示すようになる。この値を「音」の
「類字度」として類字辞書に登録する。ここでも、類字
度が一定以上(例えば30以上)の数値のみを辞書に登
録することにより、登録数が多くなり過ぎないようにす
る。また、重みは仮に、0.4と0.6としたが、この値
は、実際に複数の利用者が類字変換を行ってみて、最も
適当と思われる数値に調整すべきである。
More specifically, for one key character, the character classes are extracted from the optical character recognition version type dictionary and the online version type dictionary, respectively, and weighted appropriately, and the degree of similarity is added. The character type of “sound” is as shown in FIG. 19 (the character degree is normalized so that the perfect score is 100), the weight of the optical character recognition version is set to 0.4, and the weight of the online version is set. When the total typology of “sound” is calculated by setting to 0.6, the result is as shown in FIG. This value is registered in the type dictionary as the “character degree” of “sound”. Also in this case, by registering only numerical values having a similarity degree equal to or more than a certain value (for example, 30 or more) in the dictionary, the number of registrations is prevented from becoming too large. Also, the weights are tentatively set to 0.4 and 0.6, but this value should be adjusted to a value that seems to be the most appropriate after actually performing type conversion by a plurality of users.

【0062】次に、類字辞書の検索/表示方法について
説明する。類字変換の手順は、図3に示している通りで
ある。ここでは、辞書の検索などについて追加説明す
る。類字辞書は、図2に示したような構造になってい
る。ここでは、類字度を0から100に正規化した数値
を用いている。キー文字が与えられた場合、類字検索部
2は類字辞書3を検索し、キー文字の類字とその類字度
をバッファ部5に格納する。例えば、キー文字を「宛」
とし、その類字と類字度が図21に示すようになってい
る場合、バッファ部5は、図22に示すようになる。
Next, a method of searching / displaying the type dictionary will be described. The procedure of the type conversion is as shown in FIG. Here, a dictionary search and the like will be additionally described. The type dictionary has a structure as shown in FIG. Here, a numerical value obtained by normalizing the similarity degree from 0 to 100 is used. When a key character is given, the type search unit 2 searches the type dictionary 3 and stores the type of the key character and the degree of the type in the buffer unit 5. For example, if the key character is
If the type and degree of typology are as shown in FIG. 21, the buffer unit 5 will be as shown in FIG.

【0063】次に、別のキー文字「怒」を与えたとす
る。「怒」の類字と類字度は、図23に示すとおりとす
る。この類字と類字度をすでにバッファにあるものに追
加する。もし、新しいキー文字に対する類字の中で、す
でにバッファにある文字と共通なものがあれば、その類
字度をバッファの中の類字度に加えると、図24に示す
ようになる。バッファの大きさに限りがある場合は、類
字度の小さいものから削除していく。また、類字度の閾
値を適応的に変化させ、一定の類字度以上の文字だけバ
ッファに残すようにしてもよい。閾値を適応的に変化さ
せるとは、キー文字1つ指定の場合は、類字度50以
上、2つ指定の場合は70以上、3つ指定の場合は10
0以上ということである。このようにして、複数のキー
文字を指定することにより、目的の文字を候補の前方に
持ってくることが可能となる。以上の手法により、光学
文字認識用辞書やオンライン手書き文字認識辞書から、
類字辞書を自動生成することが可能になる。
Next, it is assumed that another key character "anger" is given. The type and degree of similarity of “anger” are as shown in FIG. Add this type and degree to what is already in the buffer. If any of the new key characters has a common character with the character already in the buffer, the similarity is added to the similarity in the buffer, as shown in FIG. If the size of the buffer is limited, delete the buffer with the smallest similarity. Alternatively, the threshold for the degree of similarity may be adaptively changed so that only characters having a certain degree of similarity or more are left in the buffer. To adaptively change the threshold value means that the degree of similarity is 50 or more when one key character is specified, 70 or more when two key characters are specified, and 10 when three key characters are specified.
0 or more. In this way, by specifying a plurality of key characters, it is possible to bring the target character to the front of the candidate. By the above method, from optical character recognition dictionary and online handwritten character recognition dictionary,
A type dictionary can be automatically generated.

【0064】[0064]

【発明の効果】以上の説明から明らかなように、本発明
によると、以下のような効果がある。 (1)現在使われている、読みのわからない文字を入力
する方法では、効率的に目的の文字を探し出すことは困
難であるので、「類字変換」機能を用いれば、これら従
来の方式を用いた検索方法より、効率的に目的の文字を
探し出すことができる。検索にかかる時間の短縮と操作
の簡便化が達成される。また、読みがわからなくても、
部首がわからなくても、目的の文字を検索することがで
き、さらに、画数を数える必要もない。 (2)類字辞書を、光学文字認識やオンライン手書き文
字認識の手法を用いて自動生成することにより、類字辞
書編成における字洩れの防止や類字度の客観的な評価、
類字グループ間での類字度評価の統一が実現でき、快適
な使用感を持つ類字変換のための辞書を作成することが
できる。また、正確な辞書を短時間かつ低労力(低コス
ト)で作成することができる。(3)漢字入力手段から見方の異なる複数のキー文字を
入力し、該キー文字ごとに類字辞書から形の似ている文
字を検索し、目的とする文字の候補を絞り込み、キー文
字と類字度の高い順に候補文字を表示させるので、目的
とする文字の発見を容易にすることができる。
As is apparent from the above description, the present invention has the following effects. (1) It is difficult to efficiently search for a target character by the currently used method of inputting a character that cannot be read. Therefore, if the “type conversion” function is used, these conventional methods can be used. The desired character can be found more efficiently than the search method used. Shortening of search time and simplification of operation are achieved. Also, even if you do not understand the reading,
Even if you do not know the radical, you can search for the desired character, and there is no need to count the number of strokes. (2) By automatically generating a type dictionary using optical character recognition and online handwritten character recognition, it is possible to prevent character omission in the type dictionary construction and objectively evaluate the degree of similarity.
It is possible to achieve unification of the degree of similarity among similarity groups, and to create a dictionary for similarity conversion with a comfortable feeling of use. In addition, an accurate dictionary can be created in a short time and with low labor (low cost). (3) Multiple key characters with different perspectives can be input from the kanji input means.
Enter a sentence that is similar in shape from the type dictionary for each key character
Search for characters, narrow down the target character candidates,
Since the candidate characters are displayed in order of character and similarity,
Can easily be found.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明による日本語入力装置の類字検索の一実
施例を説明するための構成図である。
FIG. 1 is a configuration diagram for explaining one embodiment of a similar character search of a Japanese input device according to the present invention.

【図2】本発明における類字辞書の構造を示す図であ
る。
FIG. 2 is a diagram showing a structure of a type dictionary in the present invention.

【図3】本発明における類字変換の手順を示すフローチ
ャートである。
FIG. 3 is a flowchart showing a procedure for converting characters according to the present invention.

【図4】本発明における類字変換の動作例を示す図であ
る。
FIG. 4 is a diagram illustrating an operation example of type conversion according to the present invention.

【図5】本発明における光学文字認識の手法を説明する
ための図である。
FIG. 5 is a diagram for explaining an optical character recognition method according to the present invention.

【図6】本発明における辞書パターン及び入力パターン
を示す図である。
FIG. 6 is a diagram showing a dictionary pattern and an input pattern according to the present invention.

【図7】本発明におけるマトリックスデータより類字辞
書を作成するためのブロック図である。
FIG. 7 is a block diagram for creating a similar dictionary from matrix data in the present invention.

【図8】本発明における類字度を示す図である。FIG. 8 is a diagram showing similarity in the present invention.

【図9】本発明におけるオンライン手書き文字認識の手
法を説明するための図である。
FIG. 9 is a diagram for explaining a method of online handwritten character recognition according to the present invention.

【図10】本発明におけるオンライン手書き文字認識用
の辞書構造の概念図である。
FIG. 10 is a conceptual diagram of a dictionary structure for online handwritten character recognition according to the present invention.

【図11】本発明における基本辞書を示す図である。FIG. 11 is a diagram showing a basic dictionary according to the present invention.

【図12】本発明におけるサブパターン辞書を示す図で
ある。
FIG. 12 is a diagram showing a sub-pattern dictionary according to the present invention.

【図13】本発明における基本ストローク辞書を示す図
である。
FIG. 13 is a diagram showing a basic stroke dictionary according to the present invention.

【図14】本発明における類字度の評価法を説明するた
めの図(その1)である。
FIG. 14 is a diagram (part 1) for describing a method of evaluating the degree of similarity in the present invention.

【図15】本発明における類字度の評価法を説明するた
めの図(その2)である。
FIG. 15 is a diagram (part 2) for explaining a method of evaluating the degree of similarity in the present invention.

【図16】本発明における類字度の評価法を説明するた
めの図(その3)である。
FIG. 16 is a diagram (No. 3) for explaining the method of evaluating the degree of similarity in the present invention.

【図17】本発明における類字度の計算を示す図であ
る。
FIG. 17 is a diagram showing calculation of similarity in the present invention.

【図18】本発明におけるオンライン手書き認識用辞書
から類字辞書を作成するためのブロック図である。
FIG. 18 is a block diagram for creating a similar character dictionary from the online handwriting recognition dictionary according to the present invention.

【図19】本発明における光学文字認識版類字辞書とオ
ンライン手書き文字認識版類字辞書を示す図である。
FIG. 19 is a diagram showing an optical character recognition version type dictionary and an online handwritten character recognition version type dictionary according to the present invention.

【図20】本発明におけるキー文字に対する総合類字度
を計算した例を示す図である。
FIG. 20 is a diagram illustrating an example of calculating a total similarity degree for a key character according to the present invention.

【図21】本発明における類字と類字度を示す図であ
る。
FIG. 21 is a diagram showing a similar character and a similarity degree in the present invention.

【図22】本発明における類字と類字度のバッファの状
態を示す図である。
FIG. 22 is a diagram illustrating a state of a buffer of a similar character and a similarity degree in the present invention.

【図23】本発明における類字と類字度を示す図であ
る。
FIG. 23 is a diagram showing a similar character and a similarity degree in the present invention.

【図24】本発明における類字と類字度のバッファの状
態を示す図である。
FIG. 24 is a diagram illustrating a state of a buffer of a similar character and a similarity degree in the present invention.

【図25】従来のコード入力用の一覧表を示す図であ
る。
FIG. 25 is a diagram showing a conventional list for code input.

【図26】従来の部首入力用の一覧表を示す図である。FIG. 26 is a diagram showing a conventional list for radical input.

【符号の説明】[Explanation of symbols]

1…漢字入力手段、2…類字検索部、3…類字辞書、4
…バッファ管理部、5…バッファ部、6…候補表示・選
択部、7…かな漢字変換辞書等、11…光学文字認識用
辞書、12…類字度評価部、13…光学文字認識版類字
辞書、21…オンライン手書き文字認識用辞書、22…
類字度評価部、23…オンライン手書き文字認識版類字
辞書、24…重み評価部、25…重みテーブル。
1 ... Kanji input means, 2 ... Type search section, 3 ... Type dictionary, 4
... Buffer management unit, 5 ... Buffer unit, 6 ... Candidate display / selection unit, 7 ... Kana-Kanji conversion dictionary, etc. 11 ... Dictionary for optical character recognition, 12 ... Type evaluation unit, 13 ... Type dictionary for optical character recognition , 21 ... Dictionary for online handwritten character recognition, 22 ...
Type character evaluation unit, 23: online handwritten character recognition version type dictionary, 24: weight evaluation unit, 25: weight table.

Claims (1)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 読みのわからない文字を入力する際に、
形の似ている文字で読みのわかっている文字をキー文字
入力する漢字入力手段と、オンライン手書き文字認識用
辞書及び光学文字認識用辞書を利用して、似ている文字
群と該文字群の各文字の類字度を集めて自動生成される
類字辞書と、前記漢字入力手段により入力されたキー文
字に基づいて前記類字辞書から形の似ている文字を検索
し、類字度を評価する類字検索手段とを備えた日本語入
力装置であって、前記漢字入力手段から見方の異なる複
数のキー文字を入力し、該キー文字ごとに前記類字辞書
から形の似ている文字を検索することにより目的とする
文字の候補を絞り込み、キー文字と類字度の高い順に候
補文字を表示させることを特徴とする日本語入力装置。
When inputting a character which cannot be read,
And the Chinese character input means for character key character type the you know the reading of the characters are similar in form, for online handwriting recognition
Using a dictionary and an optical character recognition dictionary, similar character groups and similar character dictionaries that are automatically generated by collecting similar character degrees of each character in the character group, and input by the kanji input means has been to search for a character that is similar in form from the previous SL class character dictionary on the basis of the key characters, Japanese input that includes a Luigi search means for evaluating the degree of Luigi
Input device, wherein the kanji input means has a different viewpoint.
Input the number of key characters, and for each key character,
By searching for characters with similar shapes from
Narrow down character candidates and sort in order of key character and similarity
A Japanese input device characterized by displaying complementary characters .
JP06143583A 1994-06-24 1994-06-24 Japanese input device Expired - Fee Related JP3101153B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP06143583A JP3101153B2 (en) 1994-06-24 1994-06-24 Japanese input device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP06143583A JP3101153B2 (en) 1994-06-24 1994-06-24 Japanese input device

Publications (2)

Publication Number Publication Date
JPH0816711A JPH0816711A (en) 1996-01-19
JP3101153B2 true JP3101153B2 (en) 2000-10-23

Family

ID=15342118

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06143583A Expired - Fee Related JP3101153B2 (en) 1994-06-24 1994-06-24 Japanese input device

Country Status (1)

Country Link
JP (1) JP3101153B2 (en)

Also Published As

Publication number Publication date
JPH0816711A (en) 1996-01-19

Similar Documents

Publication Publication Date Title
KR100221379B1 (en) Confusion matrix mediated word prediction
US6407679B1 (en) System and method for entering text in a virtual environment
US7792369B2 (en) Form processing method, form processing device, and computer product
JP2005092856A (en) System and method for chinese input using joystick
JP3220886B2 (en) Document search method and apparatus
KR100731283B1 (en) Issue Trend Analysis System
JP5577546B2 (en) Computer system
JPH05225238A (en) Data base retrieval system
JP3101153B2 (en) Japanese input device
JP3151730B2 (en) Database search system
JP4362492B2 (en) Document indexing device, document search device, document classification device, method and program thereof
JP5466376B2 (en) Information processing apparatus, first and last name identification method, information processing system, and program
JP2000194725A (en) Similar group extractor and storage medium stored with similar group extraction program
US20050065775A1 (en) Method and system for inputting chinese characters
JP2001325104A (en) Method and device for inferring language case and recording medium recording language case inference program
WO2014170965A1 (en) Document processing method, document processing device, and document processing program
JP4115568B2 (en) Text input device
JP2020004373A (en) Standard item name setting device, standard item name setting method, and standard item name setting program
JP6303508B2 (en) Document analysis apparatus, document analysis system, document analysis method, and program
JP6968353B2 (en) Feature extraction method, computer program and information processing equipment
JPH0944521A (en) Index generating device and document retrieval device
JP2009110204A (en) Document processing apparatus, document processing system, document processing method, and document processing program
JPH05225248A (en) Data base retrieval system
JP2681572B2 (en) Handwritten character input method and device
WO2019245016A1 (en) Standard item name setting device, standard item name setting method, and standard item name setting program

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees