JPH10269208A - Japanese syllabary-chiness character converting device - Google Patents

Japanese syllabary-chiness character converting device

Info

Publication number
JPH10269208A
JPH10269208A JP9069444A JP6944497A JPH10269208A JP H10269208 A JPH10269208 A JP H10269208A JP 9069444 A JP9069444 A JP 9069444A JP 6944497 A JP6944497 A JP 6944497A JP H10269208 A JPH10269208 A JP H10269208A
Authority
JP
Japan
Prior art keywords
kanji
field
field information
kana
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9069444A
Other languages
Japanese (ja)
Inventor
Takeshi Hirose
岳史 広瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP9069444A priority Critical patent/JPH10269208A/en
Publication of JPH10269208A publication Critical patent/JPH10269208A/en
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

PROBLEM TO BE SOLVED: To perform KANA (Japanese syllabry)-KANJI (Chinese character) conversion that is high in correct answer rate, by evaluating the priority by making use of field information added to KANJI when there are more than one candidates. SOLUTION: The KANA-KANJI mixture converting means 11 performs retrieval from a word dictionary memory 12 according to a character string stored in an input memory 10 and stores retrieved candidates in a conversion result memory 13. A candidate pointer indicates the storage destination addressees of the conversion result character strings stored in a conversion result memory 13. Then field information on a character that the character pointer indicates is retrieved form KANJI field information memory part 15. On the basis of the retrieved field information, the similarity of the field is calculated and the evaluation result is stored in an evaluation result memory 16. After the final candidate is handled, retrieval from the evaluation result memory 16 is referenced to white the candidates out to an output money 23 in the decreasing order of similarity, and the process is finished. Even when there is made than one candidate, the load of a candidate choice is reduced by the priority evaluation based upon field information on KANJI.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】電子手帳、携帯情報端末、ワ
ープロ、パソコンなど漢字仮名交じり変換機能を有する
装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a device such as an electronic organizer, a portable information terminal, a word processor, a personal computer, etc., having a function of converting kanji kana.

【0002】[0002]

【従来の技術】従来より、漢字と仮名の混在した文字列
を仮名漢字交じり文字列に変換する漢字仮名交じり変換
が実現されている。これは、例えば「会ぎ」と入力して
「会議」と変換するような技術である。
2. Description of the Related Art Conventionally, kanji-kana conversion has been realized in which a character string in which kanji and kana are mixed is converted to a kana-kanji-kanji character string. This is a technique of inputting “meeting” and converting it to “meeting”, for example.

【0003】一般的なかな文字を入力して仮名漢字交じ
り文字に変換する変換とは異なるこの漢字仮名交じり変
換は、漢字と仮名の交ぜ書き入力が可能なため、特に手
書き文字認識機能を備える機器において、入力のための
画数が多かったり、認識しにくいなど入力の困難な文字
の入力に有効である。
This kanji-kana conversion, which is different from the conversion of inputting common kana characters to kana-kanji kanji characters, is capable of inputting kanji-kana kanji characters. Is effective for inputting characters that are difficult to input, such as a large number of strokes for input or difficulty in recognition.

【0004】漢字仮名交じり変換の長所としては、漢字
の交ぜ書きをすることにより、仮名漢字変換に比べて変
換候補が少なくなり変換効率がよいという点が挙げられ
る。さらには、特開平7−334497号公報にあるよ
うに、漢字が手書き入力される比率を計算し次候補の優
先度を評価することで、さらに変換率の高い装置が実現
されている。これは、「そう作」に対して「創作」「操
作」が得られた場合、例えば「作」が漢字で入力される
のは「さく」と読む場合の方が比率が高いといったデー
タを用意しておき、このデータに基づき「創作」を優先
する方法である。
An advantage of the kanji-kana conversion is that kanji-crossing reduces the number of conversion candidates and improves conversion efficiency as compared to kana-kanji conversion. Furthermore, as disclosed in Japanese Patent Application Laid-Open No. Hei 7-334497, an apparatus having a higher conversion rate is realized by calculating the ratio of handwritten input of Chinese characters and evaluating the priority of the next candidate. This means that if “creation” and “operation” are obtained for “sakusaku”, for example, “saku” is input in kanji, and the ratio is higher when reading “saku” is higher. This is a method of giving priority to "creation" based on this data.

【0005】[0005]

【発明が解決しようとする問題点】このように漢字仮名
交じり変換では、仮名漢字変換に比べて候補はかなり減
少するが、依然次候補は存在する。さらに、漢字仮名交
じり変換特有の次候補として、例えば「下こう」(「下
降」と変換したい)と入力すると「下校(げこう)」
「下降(かこう)」などに変換され、「下校」といった
利用者が予期しにくい候補が出現し、違和感を覚える。
これは、システムがユーザが予期して入力して読みと異
なる読みをする場合に起こるものである。
As described above, in the kanji-kana mixed conversion, the number of candidates is considerably reduced as compared with the kana-kanji conversion, but the next candidate still exists. Further, as a next candidate peculiar to kanji kana conversion, for example, "Shoko" (to be converted to "Descent") is input to "Keko".
The result is converted into “down” and a candidate such as “go home”, which is difficult for the user to predict, appears, giving a sense of discomfort.
This occurs when the system expects the user to enter and read differently than the reading.

【0006】また、前記先行技術に見られる漢字の読み
ごとの交ぜ書きの比率データは、データ収集が難しく、
また集めたデータ量も大きなものとなってしまう。ある
いは、交ぜ書きの比率は随時更新し学習可能であるが、
読みごとの比率だけでは入力する文章内容応じたきめ細
かな対応はできないといった問題が生じる。
[0006] Further, it is difficult to collect the data of the ratio of the kanji-to-kanji spelling found in the prior art,
In addition, the amount of collected data becomes large. Alternatively, the ratio of cross-writing can be updated and learned at any time,
There is a problem that it is not possible to provide a detailed response according to the content of the input text only by the ratio of each reading.

【0007】そこで、本発明では、漢字仮名交じり文字
列中の仮名を漢字に変換する漢字仮名交じり変換装置に
おいて、候補が複数あった場合に漢字に付加した分野情
報を利用して優先度を評価することで、正解率が高い漢
字仮名変換を行うものである。
Therefore, according to the present invention, in a kanji kana conversion apparatus for converting a kana in a kanji kana mixed character string into a kanji, when there are a plurality of candidates, the priority is evaluated using field information added to the kanji. By doing so, kanji kana conversion with a high correct answer rate is performed.

【0008】これにより候補が多い場合でも、漢字分野
情報による優先度評価を行うため、候補選択の負担が軽
減される。また、漢字分野情報を細分化することで、幅
広い内容の文章に応じた優先が可能となると同時に、入
力される文章に即して漢字の分野学習を行うため、文章
内容の変化にも対応が可能であり、文章の内容によらず
候補の優先が可能である。
Thus, even when there are many candidates, the priority evaluation is performed based on the kanji field information, so that the burden of candidate selection is reduced. By subdividing the kanji field information, it is possible to give priority to sentences with a wide range of contents, and at the same time, the kanji field learning is performed in accordance with the input sentence, so it can respond to changes in sentence contents. It is possible, and it is possible to prioritize candidates regardless of the content of the sentence.

【0009】また、漢字分野情報は、漢字単体に与える
情報なので、データの組み合わせ的爆発が起こらず、必
要とするデータの絶対量が小さい。これにより、装置の
小型化、低価格化が図れ、処理能力の低い装置上でも実
現が可能である。
Further, since the kanji field information is information given to a single kanji, no explosive combination of data occurs, and the absolute amount of required data is small. As a result, the size and cost of the device can be reduced, and it can be realized even on a device with a low processing capacity.

【0010】さらに、漢字の分野情報は基本的に漢字の
出現頻度の抽出で作成可能であるため、漢字の読み情報
を必要とする前記比率テーブルと異なり、形態素解析に
よる単語分割などの処理を必要とせず、データの作成が
容易である。そして、他の装置で作成した文章を読み込
んだ場合など、既入力文章の分野情報を一括してえるた
めの前処理においても、漢字の照合は単語の照合よりも
処理負担が軽く、高速かつ容易に実現できる。さらに、
同種の内容の文章を入力する機会が多い利用者について
は、分野情報を個別に設定することで、分野学習がより
正確に行え、変換の精度が向上する。これは入力する文
章の分野が既知である場合も同様である。
Further, since the kanji field information can be basically created by extracting the appearance frequency of kanji, unlike the ratio table which requires kanji reading information, processing such as word division by morphological analysis is required. And it is easy to create data. In addition, even in the case of reading a sentence created by another device, even in the pre-processing for obtaining the field information of the input sentence in a batch, the matching of kanji is lighter, faster and easier than word matching. Can be realized. further,
For users who frequently input texts of the same kind, by setting field information individually, field learning can be performed more accurately, and conversion accuracy is improved. The same applies to the case where the field of the input text is known.

【0011】[0011]

【課題を解決するための手段】本発明の請求項1によれ
ば、入力文字列を仮名漢字交じり文字列に変換する仮名
漢字変換装置において、少なくとも単語の表記情報と各
表記に対する読みを記憶した単語辞書と、各漢字に対し
て分野情報を付加して記憶する分野情報辞書と、前記分
野情報辞書に基づき、過去に入力された文字列中の漢字
から分野情報を取得する学習手段と、入力された文字列
によって、前記単語辞書から単語候補を検索する単語検
索手段と、前記学習手段により得られた分野情報に基づ
いて、前記単語検索手段により検索された単語の候補の
優先づけを行う評価手段を備えることにより上記課題を
解決する。
According to the first aspect of the present invention, in a kana-kanji conversion apparatus for converting an input character string into a kana-kanji mixed character string, at least the notation information of a word and the reading for each notation are stored. A word dictionary, a field information dictionary that stores field information added to each kanji, and learning means for acquiring field information from kanji in a previously input character string based on the field information dictionary; Word search means for searching word candidates from the word dictionary, based on the obtained character strings, and evaluation for prioritizing word candidates searched for by the word search means based on field information obtained by the learning means. The above object is achieved by providing means.

【0012】本発明の請求項2によれば、前記分野情報
は、n個の分野ラベルからなり、各ラベルには分野との
関連度を数値化したものが記憶され、各漢字に対してn
次元のベクトル情報として分野情報を構成することによ
り上記課題を解決する。
According to the second aspect of the present invention, the field information is composed of n field labels, and each label stores a digitized value of the degree of relevance to the field.
The above problem is solved by configuring the field information as dimensional vector information.

【0013】本発明の請求項3によれば、前記評価手段
は、候補の優先づけにおいて、前記学習手段により得ら
れるn次元ベクトルの漢字分野情報と、各単語候補のn
次元ベクトル化された漢字分野情報の内積を算出し、値
の大きい候補を優先することにより上記課題を解決す
る。
According to the third aspect of the present invention, the evaluation means, when prioritizing the candidates, sets the kanji field information of the n-dimensional vector obtained by the learning means and the n of each word candidate.
The above problem is solved by calculating the inner product of the dimensional vectorized kanji field information and giving priority to the candidate having the larger value.

【0014】本発明の請求項4によれば、前記分野情報
は、n個の分野ラベルからなり、各ラベルには分野との
関連度を数値化したものが記憶され、各漢字に対してn
次元空間の座標情報として分野情報を構成するものであ
り、前記評価手段は、候補の優先づけにおいて、前記学
習手段により得られるn次元座標化された漢字分野情報
と、各候補のn次元座標化された漢字分野情報の距離を
算出し、値の小さい候補を優先することを特徴とする前
記請求項1記載の仮名漢字変換装置。
According to the fourth aspect of the present invention, the field information is composed of n field labels, and each label stores a numerical value of the degree of relevance to the field.
Field information is configured as coordinate information of a three-dimensional space. The evaluation means, in prioritizing candidates, the kanji field information converted into n-dimensional coordinates obtained by the learning means and the n-dimensional coordinate conversion of each candidate. 2. The kana-kanji conversion apparatus according to claim 1, wherein a distance of the obtained kanji field information is calculated, and a candidate having a small value is prioritized.

【0015】本発明の請求項5によれば、前記単語辞書
は少なくとも表記情報と各表記に対する読みと品詞情報
から構成され、前記単語辞書に基づいて文字列から単語
を切り出し、品詞を特定する形態素解析手段と備え、前
記学習手段は過去に入力された文字列を前記形態素解析
手段により単語に分割し、所定の単語についてのみ分野
情報を得ることにより上記課題を解決する。
According to claim 5 of the present invention, the word dictionary is composed of at least notation information, readings for each notation, and part of speech information, and a word is cut out from a character string based on the word dictionary to specify a part of speech. Analysis means is provided, and the learning means solves the above-described problem by dividing a character string input in the past into words by the morphological analysis means and obtaining field information only for predetermined words.

【0016】本発明の請求項6によれば、前記学習手段
は、過去に入力された文字列を前記形態素解析手段によ
り単語に分割し、固有名詞については分野情報を取得し
ないことにより上記課題を解決する。
According to the sixth aspect of the present invention, the learning means divides a character string input in the past into words by the morphological analysis means, and does not acquire field information for proper nouns, thereby solving the above problem. Resolve.

【0017】本発明の請求項7によれば、漢字分野情報
を構成する各分野ラベルのうち、操作者が入力する文章
に即した分野情報を予め設定する分野設定手段を備え、
前記評価手段において、前駆分野設定手段により設定さ
れて分野の分野ラベルに基づいて優先候補を決定するこ
とにより上記課題を解決する。
According to a seventh aspect of the present invention, there is provided a field setting means for presetting field information corresponding to a sentence inputted by an operator among field labels constituting the kanji field information,
The evaluation means solves the above-mentioned problem by determining priority candidates based on the field label of the field set by the precursor field setting means.

【0018】[0018]

【発明の実施の形態】以下に図面を用いて本発明を詳細
に説明する。図1は本発明の実施例における装置の基本
構成図である。1は、手書き文字の入力や選択指示など
の各種信号を入力するための入力手段であり、ペン入力
タブレットなど表示手段と一体となったものでもよい。
DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS The present invention will be described below in detail with reference to the drawings. FIG. 1 is a basic configuration diagram of an apparatus according to an embodiment of the present invention. Reference numeral 1 denotes input means for inputting various signals such as input of handwritten characters and selection instructions, and may be integrated with display means such as a pen input tablet.

【0019】2は、入力すべき文章の分野をあらかじめ
設定するための分野設定手段であり、入力手段に設けら
れている。3は、分野情報のうち必要なものを選択する
ための分野選択手段であり、入力手段に設けられてい
る。4は、入力された文字や漢字仮名交じり変換の結果
などを表示するための表示手段である。5は、入力手段
および出力手段の各信号を制御するための入出力制御手
段である。
Reference numeral 2 denotes a field setting means for setting in advance the field of the text to be input, which is provided in the input means. Numeral 3 is a field selecting means for selecting necessary field information from the field information, and is provided in the input means. Reference numeral 4 denotes a display unit for displaying the input character, the result of the kanji kana mixed conversion, and the like. Reference numeral 5 denotes input / output control means for controlling each signal of the input means and the output means.

【0020】6は、装置全体の制御を行うための中央処
理装置である。7は、入力手段からの手書き入力文字を
認識するための文字認識手段であり、ROM(Read Onl
y Memory)やHD(Hard Disk)に格納されたプログラ
ムコードである。8は、文字認識手段で参照される文字
認識辞書を格納するためのメモリであり、ROMやHD
に格納されたデータである。
Reference numeral 6 denotes a central processing unit for controlling the entire apparatus. Reference numeral 7 denotes character recognition means for recognizing handwritten input characters from the input means.
y Memory) or a program code stored in an HD (Hard Disk). Reference numeral 8 denotes a memory for storing a character recognition dictionary referred to by the character recognition means.
Is the data stored in.

【0021】9は、文字認識結果を格納するためのメモ
リであり、RAM(Random AccessMemory)上に設けら
れている。10は、入力文字列を格納するためのメモリ
であり、RAM上に設けられている。11は、入力され
た漢字仮名交じり文字列を変換するための漢字仮名交じ
り変換手段であり、ROMやHDに格納されたプログラ
ムコードである。12は、漢字仮名交じり変換手段や形
態素解析手段で参照される単語辞書を格納するためのメ
モリであり、ROMやHDに格納されたデータである。
13は、漢字仮名交じり変換の変換結果を格納するため
のメモリであり、RAM上に設けられている。14は、
漢字の分野情報および分野学習データをもとに、変換結
果候補の優先度を評価するための評価手段であり、RO
MやHDに格納されたプログラムコードである。
Reference numeral 9 denotes a memory for storing a character recognition result, which is provided on a RAM (Random Access Memory). Reference numeral 10 denotes a memory for storing an input character string, which is provided on a RAM. Numeral 11 denotes a kanji / kana kana conversion unit for converting the input kanji / kana kana character string, which is a program code stored in the ROM or the HD. Reference numeral 12 denotes a memory for storing a word dictionary referred to by the kanji-kana conversion unit and the morphological analysis unit, and is data stored in the ROM or the HD.
Reference numeral 13 denotes a memory for storing a conversion result of the kanji / kana mixed conversion, which is provided on the RAM. 14 is
RO is an evaluation means for evaluating the priority of conversion result candidates based on kanji field information and field learning data.
It is a program code stored in M or HD.

【0022】15は、漢字の分野情報を格納するための
メモリであり、ROMやHDに格納されたデータであ
る。16は、評価結果を格納するためのメモリであり、
RAM上に設けられている。17は、既に入力された文
字列から漢字の分野情報を学習するための学習手段であ
り、ROMやHDに格納されたプログラムコードであ
る。18は、学習手段によって学習された分野情報を格
納するためのメモリであり、RAM上に設けられてい
る。
Reference numeral 15 denotes a memory for storing kanji field information, which is data stored in a ROM or an HD. 16 is a memory for storing the evaluation result,
It is provided on a RAM. Reference numeral 17 denotes learning means for learning kanji field information from a character string already input, and is a program code stored in a ROM or an HD. Reference numeral 18 denotes a memory for storing the field information learned by the learning means, and is provided on the RAM.

【0023】19は、既に入力された文字列を形態素解
析するための形態素解析手段であり、ROMやHDに格
納されたプログラムコードである。20は、既に入力さ
れた文章を格納するためのメモリであり、HDやFDな
どの書き込み可能なメモリである。21は、分野選択手
段で選択された分野情報を格納するためのメモリであ
り、RAM上に設けられている。22は、分野設定手段
で設定された分野情報を格納するためのメモリであり、
RAM上に設けられている。23は、表示手段に表示さ
れる変換結果文字列を格納するためのメモリであり、R
AM上に設けられている。
Reference numeral 19 denotes morphological analysis means for morphologically analyzing a character string already input, and is a program code stored in a ROM or an HD. Reference numeral 20 denotes a memory for storing a sentence already input, which is a writable memory such as an HD or FD. Reference numeral 21 denotes a memory for storing the field information selected by the field selection means, which is provided on the RAM. 22 is a memory for storing the field information set by the field setting means,
It is provided on a RAM. 23 is a memory for storing the conversion result character string displayed on the display means;
It is provided on the AM.

【0024】以下、順に各構成を説明する。まず、漢字
仮名交じり変換手段11について説明する。手書き文字
認識を経て手書き入力された文字は、入力メモリ10へ
格納される。そして、利用者の漢字仮名交じり変換要求
を入力手段から受けると、入力メモリ内の文字列に対し
て漢字仮名交じり変換を行う。
Hereinafter, each configuration will be described in order. First, the kanji kana mixing conversion means 11 will be described. Characters input by handwriting after handwritten character recognition are stored in the input memory 10. Then, upon receiving a user's kanji-kana conversion request from the input means, kanji-kana conversion is performed on the character string in the input memory.

【0025】漢字仮名交じり変換は、漢字仮名交じり文
字列をもとに辞書検索を行い、文字列中の一部ひらがな
部分を漢字に変換する。このために、検索する辞書とし
ては、漢字あるいは仮名からの検索が可能な構造が必要
であり、例えば図6に示すようなものである。
In the kanji kana conversion, a dictionary search is performed based on the kanji kana character string, and a part of the hiragana in the character string is converted to kanji. For this reason, the dictionary to be searched needs to have a structure capable of searching from kanji or kana, for example, as shown in FIG.

【0026】図中の5は辞書本体部分であり、アは単語
の読み、イは単語の表記、ウは表記の各文字に割り当て
られた読みの文字数情報であり、例えば「おがわ/小川
/12」は、表記「小」に読み1文字「お」が、表記
「川」に読み2文字「がわ」が割り当てられていること
を表す。なお、この文字数情報により、交ぜ書き入力の
「お川」が「小川」と一致すると判断でき、変換結果
「小川」を得ることができる。また、漢字仮名交じり変
換では漢字と仮名のさまざまな交ぜ書きのパタンから、
例えば「おがわ」「お川」「小がわ」などから、変換候
補「小川」が検索されなければならない。
In the figure, reference numeral 5 denotes a dictionary body portion, where a is a word reading, a is a word notation, and c is reading number information assigned to each character of the notation. For example, "Ogawa / Ogawa / 12 Indicates that the notation "small" is assigned one reading "o", and the notation "kawa" is assigned two readings "gawa". Note that, based on the character number information, it can be determined that the cross-written input “Ogawa” matches the “Ogawa”, and the conversion result “Ogawa” can be obtained. Also, in the kanji kana mixing conversion, various patterns of kanji and kana are written,
For example, a conversion candidate “Ogawa” must be searched from “Ogawa”, “Ogawa”, “Ogawa”, and the like.

【0027】このため、検索用のインデックスとして、
図中の1、2、3および4のようなインデックス部分を
設けている。1および2は読みをもとに辞書を検索する
ためのインデックスであり、3および4は表記をもとに
辞書を検索するためのインデックスである。なお、後述
する形態素解析手段と共有する場合にはさらに品詞など
の文法情報も必要になる。
For this reason, as a search index,
Index portions such as 1, 2, 3, and 4 in the figure are provided. Reference numerals 1 and 2 are indexes for searching a dictionary based on readings, and reference numerals 3 and 4 are indexes for searching a dictionary based on notations. When shared with a morphological analysis unit described later, grammatical information such as part of speech is also required.

【0028】漢字仮名交じり変換処理としては、基本的
には前記単語辞書を検索することで変換すべき自立語単
語を得た上で、さらには助詞部分などの解析を行い文節
単位で候補を生成するのが一般的である。また、これら
の候補間の優先度を評価するために、頻度情報や前後文
節との文法的な接続の妥当性などを用いている。これら
漢字仮名変換処理は従来技術が利用可能であるため、詳
細な説明は省略する。漢字仮名交じり変換手段で得られ
た変換候補は変換結果メモリ13へ格納される。
In the kanji-kana conversion process, basically, independent word words to be converted are obtained by searching the word dictionary, and further, a particle part and the like are analyzed to generate candidates in units of phrases. It is common to do. Further, in order to evaluate the priority between these candidates, frequency information, the validity of grammatical connection with preceding and succeeding phrases, and the like are used. Since the conventional technique can be used for the kanji kana conversion processing, detailed description will be omitted. The conversion candidates obtained by the kanji-kana mixing conversion means are stored in the conversion result memory 13.

【0029】漢字分野情報について説明する。漢字の分
野情報はn個の分類ラベル(以後、分野と呼ぶ)を個々
の漢字について定義したものある。分野の具体例として
は「政治」「経済」「教育」「芸術」といったもので、
これらは必要に応じて定義の細分化がなされてもよい。
そして、個々の漢字に対して、これらn個の分野との関
連度を数値化して、その漢字の分野情報として与える。
The kanji field information will be described. The kanji field information defines n classification labels (hereinafter referred to as fields) for each kanji. Examples of disciplines include "politics,""economy,""education," and "arts."
These may be subdivided into definitions as needed.
Then, for each kanji, the degree of relevance to these n fields is quantified and given as kanji field information.

【0030】図7は漢字分野情報メモリ15の構成を示
す模式図である。図中aは漢字表記の格納部分で、実際
にはJISコードが昇順に格納されている。図中bは各
漢字に付加した分野情報の格納部分である。分野情報は
n次元のベクトル値(もしくはn次元空間の座標)とし
て扱うことができ、以下便宜上、 vec(”校”)=(a1,a2,a3,…) のように表す。この場合、ベクトルの各成分が個々の分
野に対応する。なお、分野情報はすべての漢字に与えな
くてもよく、必要な漢字に限定してもかまわない。
FIG. 7 is a schematic diagram showing the configuration of the kanji field information memory 15. In the figure, a is a storage portion of kanji notation, in which JIS codes are actually stored in ascending order. In the figure, b is a storage part of the field information added to each kanji. The field information can be handled as an n-dimensional vector value (or a coordinate in an n-dimensional space), and is expressed as vec (“school”) = (a1, a2, a3,...) For convenience. In this case, each component of the vector corresponds to an individual field. It should be noted that the field information need not be given to all kanji, and may be limited to necessary kanji.

【0031】漢字の分野情報の作成については、個々の
分野と漢字との関連度を逐一設定してもよい。あるい
は、大量の文章データを分野をキーにして分類し、分類
された文章データ中の各漢字の出現回数の統計値をとっ
て該分野との関連度を算出する方法もある。あるいはこ
れらの方法を組み合わせて分野情報の精度を向上させて
いくことも可能である。
For the preparation of the kanji field information, the degree of relevance between each field and the kanji may be set one by one. Alternatively, there is a method in which a large amount of text data is classified using a field as a key, and a statistical value of the number of appearances of each kanji in the classified text data is calculated to calculate the degree of association with the field. Alternatively, it is also possible to improve the accuracy of the field information by combining these methods.

【0032】次に、学習手段17について説明する。学
習手段17は、既に入力されている文章全体がどの分野
と関連があるかを表す分野の学習情報(以後、学習分野
と呼ぶ)を求めるものである。学習分野の抽出には前記
各漢字の分野情報を用いる。
Next, the learning means 17 will be described. The learning unit 17 obtains learning information (hereinafter, referred to as a learning field) of a field indicating to which field the entire input sentence is related. The field information of each kanji is used to extract the learning field.

【0033】既に入力されている文章中の各漢字に対し
て、漢字分野情報メモリ15からそれぞれの分野情報を
検索する。そして、検索した分野情報を後述する一定式
にもとづき計算し、学習分野を得る。計算の結果は学習
メモリ18に格納する。
For each kanji in the sentence already input, the kanji field information memory 15 is searched for the respective field information. Then, the retrieved field information is calculated on the basis of a constant equation described later to obtain a learning field. The result of the calculation is stored in the learning memory 18.

【0034】学習分野は、以下の式にもとづき計算し
た、出現漢字の分野情報のベクトル和である。まず、直
前までに生成されている学習分野を、 vec(学習)=(k1,k2,k3,…) で表す。この状態で、新たに前記の漢字「校」が出現し
た場合、学習分野は、 vec(学習)´=(k1+a1,k2+a2,k3+a3,…) のように更新される。第8図は学習メモリの内容を示す
模式図である。
The learning field is a vector sum of field information of the appearing kanji calculated based on the following equation. First, the learning field generated up to immediately before is represented by vec (learning) = (k1, k2, k3,...). In this state, when the kanji “school” newly appears, the learning field is updated as vec (learning) ′ = (k1 + a1, k2 + a2, k3 + a3,...). FIG. 8 is a schematic diagram showing the contents of the learning memory.

【0035】また、単純にベクトル和を求めると、各ベ
クトル成分が蓄積されていくため、分野間の差異が小さ
くなり、学習分野が飽和状態に(どの分野も一様に関連
度が高く)なってしまう。この問題を解決するために、
各ベクトル成分に対して、漢字の出現数による平均化を
行う。ベクトル和である学習分野の値が、 vec(学習)=(K1,K2,K3,…) であり、学習分野の計算を行った漢字の個数をsとする
と、平均化された学習分野の値は、 vec(学習)´=(K1÷s,K2÷s,K3÷s,…) =(K1´,K2´,K3´,…) となる。
If the vector sum is simply obtained, each vector component is accumulated, so that the difference between the fields becomes small, and the learning field becomes saturated (all fields have a uniformly high degree of relevance). Would. to solve this problem,
Averaging is performed on each vector component by the number of appearances of kanji. If the value of the learning field, which is a vector sum, is vec (learning) = (K1, K2, K3, ...), and the number of kanji calculated in the learning field is s, the averaged value of the learning field Is as follows: vec (learning) ′ = (K1Ks, K2 ÷ s, K3… s,...) = (K1 ′, K2 ′, K3 ′,...)

【0036】あるいは、ベクトルの成分値に対して一定
の制限を設け、制限値以下の成分(分野)は初期化して
しまう方法がある。制限値は、固定値あるいは漢字の出
現個数をもとに求められる関数値などがよい。例えば、
制限値をL、漢字の出現個数をsとした場合、 L=α×s α:一定値 で計算された制限値Lをもとに、 vec(学習)´=(k1´,k2´,k3´,…) に対して、各成分のうち制限値L以下のものは、0に初
期化する。
Alternatively, there is a method in which a certain limit is set for the component values of the vector, and components (fields) below the limit value are initialized. The limit value may be a fixed value or a function value obtained based on the number of appearances of kanji. For example,
Assuming that the limit value is L and the number of appearances of kanji is s, based on the limit value L calculated by L = α × s α: constant value, vec (learning) ′ = (k1 ′, k2 ′, k3 ′,...) Are initialized to 0 for each component that is equal to or less than the limit value L.

【0037】さらに、分野情報を与えられている漢字で
あっても、文章中での使われ方によって学習に悪影響を
及ぼす場合がある。具体的には「星」「輝」「天」など
の漢字は「宇宙・天体」という分野の値が大きい例であ
るが、「星野」「輝雄」「天草」などの単語の一部であ
った場合には、必ずしも文章の分野情報を反映している
とは言えない。このような傾向は、特に固有名詞単語の
漢字表記において顕著である。このため、分野学習の計
算においては、固有名詞中の漢字は除外することが有効
である。
Further, even in the case of kanji to which field information is given, learning may be adversely affected depending on how it is used in a sentence. Specifically, kanji characters such as "Hoshi", "Hikaru", and "Ten" are examples of large values in the field of "space and celestial bodies", but they are part of words such as "Hoshino", "Terio", and "Amakusa". Does not necessarily reflect the field information in the text. Such a tendency is particularly remarkable in the kanji notation of proper noun words. For this reason, it is effective to exclude the kanji in proper nouns in the calculation of the field learning.

【0038】また、文字の入力に合わせて随時学習デー
タの更新を行うタイミングは、手書き入力による漢字の
入力直後や漢字仮名交じり変換結果が選択された直後に
おいて行う。
The timing of updating the learning data at any time in accordance with the input of the character is performed immediately after the input of the kanji by handwriting input or immediately after the conversion result of the kanji kana mixed with the kana.

【0039】次に、形態素解析手段19について説明す
る。前記のように分野学習においては、文章データを形
態素解析し単語に分割したうえで、固有名詞を除外する
ことが有効である。形態素解析は、単語辞書をもとに漢
字仮名交じり文字列を、形態素(自立語や助詞など)と
呼ばれる単位に分割することであり、各文字からの辞書
引きを行い形態素に分割していく。
Next, the morphological analysis means 19 will be described. As described above, in field learning, it is effective to morphologically analyze sentence data and divide the sentence data into words, and then remove proper nouns. The morphological analysis is to divide a character string mixed with kanji and kana into units called morphemes (independent words, particles, etc.) based on a word dictionary, and lexically divide each character into morphemes.

【0040】形態素解析に関しては、日本語の場合、自
立語や助詞などからなる文節という単位をベースにした
解析が一般的で、文字列の先頭から辞書と最も長く一致
した候補を優先する最長一致法や、二文節の長さを足し
て最も長く一致した候補を優先する2文節最長一致法、
文全体の文節数が最も少なくなるような候補を優先する
文節数最小法などの基本アルゴリズムが提案されてい
る。なお、形態素解析の処理内容については既存の処理
でよいため詳細な説明は省く。
With regard to morphological analysis, in the case of Japanese, analysis based on a unit of a clause composed of independent words, particles, and the like is generally performed, and the longest match that prioritizes the candidate that matches the dictionary longest from the beginning of the character string is given priority. Or the two-phrase longest match method that gives priority to the longest matching candidate by adding the length of two phrases,
A basic algorithm such as the minimum number of clauses method that gives priority to a candidate that minimizes the number of clauses in the entire sentence has been proposed. Note that the processing content of the morphological analysis may be an existing process, and thus a detailed description is omitted.

【0041】形態素解析の例としては、入力文字列が
「惑星状星雲は星の」であれば、『惑星(一般名詞)+
状(接尾語)、星雲(一般名詞)+は(助詞)、星(一
般名詞)+の(助詞)』という解析結果が得られる。あ
るいは、入力文字列が「九州天草でミカン畑のパイロッ
ト事業に」であれば、『九州(固有名詞)、天草(固有
名詞)+で(助詞)、ミカン(一般名詞)+畑(接尾
語)+の(助詞)、パイロット(一般名詞)、事業(一
般名詞)+に(助詞)』という結果が得られる。このよ
うな形態素解析の結果を利用することで、一般名詞中の
漢字「星」については、学習手段で利用するが、固有名
詞中の漢字「天」は利用しないといった制限が可能とな
る。
As an example of the morphological analysis, if the input character string is “a planetary nebula is a star”, “planet (general noun) +
(Suffix), nebula (general noun) + (particle), star (general noun) + (particle) ”is obtained. Or, if the input character string is "Kyushu Amakusa to be a pilot project of orange fields", "Kyushu (proper noun), Amakusa (proper noun) + (particle), mandarin (general noun) + field (suffix) + (Particle), pilot (general noun), business (general noun) + (particle) ”. By using the result of such morphological analysis, it is possible to limit the use of the kanji "star" in the common noun by the learning means, but not to use the kanji "ten" in the proper noun.

【0042】なお、形態素解析は入力文字列をある程度
の長さ単位で解析する必要がある。このため手書き入力
などでは、入力された文字各々について、入力直後に学
習することができない。よって、句読点や改行など入力
の区切りがあるまで、学習処理を待機することが必要と
なる。例えば、入力されている文字に対して一定文字数
分タイミングを遅らせて学習処理を起動する。
In the morphological analysis, it is necessary to analyze an input character string in units of a certain length. Therefore, in handwriting input or the like, it is not possible to learn each input character immediately after input. Therefore, it is necessary to wait for the learning process until there is an input break such as a punctuation mark or a line feed. For example, the learning process is started by delaying the timing by a certain number of characters with respect to the input character.

【0043】入力を断続的に行う場合や、他の装置で作
成した文章を本装置で修正する場合などには、既入力文
章に対する学習データがない。このため、文章メモリへ
読み込んだ際に、一括して学習することが必要となる。
このような場合には、形態素解析による学習データの作
成が可能である。
When the input is performed intermittently or when a sentence created by another device is corrected by the present device, there is no learning data for the already input sentence. For this reason, it is necessary to collectively learn when reading into the sentence memory.
In such a case, it is possible to create learning data by morphological analysis.

【0044】次に、分野選択手段3及び分野設定手段2
について説明する。各漢字に与えられる分野情報はさま
ざまな文章入力に対応するため広範囲にわたって分野の
設定がなされている。このため、不要な分野情報が悪影
響を及ぼす場合がある。このようなとき、特定分野に集
中した内容で文章入力する場合であれば、必要な分野情
報が限定することで、悪影響を抑制することができる。
Next, the field selecting means 3 and the field setting means 2
Will be described. The field information given to each kanji has a wide range of field settings in order to correspond to various sentence inputs. For this reason, unnecessary field information may have an adverse effect. In such a case, if a sentence is input with contents concentrated on a specific field, adverse effects can be suppressed by limiting necessary field information.

【0045】分野選択手段3は、学習手段において学習
される分野のラベルを利用者が一時的に限定するための
ものであり、入力において必要分野が限られる、あるい
は、入力において悪影響がある分野が見つかった場合な
どに分野選択手段3において、必要分野の選択もしくは
不要分野の抑制が行える。なお、分野選択手段3で選択
された分野ラベルに関する情報は、選択分野メモリ21
に格納される。
The field selecting means 3 is for the user to temporarily limit the label of the field to be learned by the learning means. In the case where a field is found, the field selection means 3 can select a necessary field or suppress unnecessary fields. The information on the field label selected by the field selection means 3 is stored in the selected field memory 21.
Is stored in

【0046】たとえば、分野学習の計算において、 vec(学習)=(k1,k2,k3,k4,k5,k6,…) :学
習分野 vec(漢字)=(x1,x2,x3,x4,x5,x6,…) :出
現漢字 のような状態で、分野ラベルk2およびk5が不要ラベ
ルとして選択されると、分野学習の計算では、成分k
2、k5を無視して、 vec(学習)´=(k1+x1,,k3+x3,k4+x4,,k6+x6,
…) と計算する(不要分野に該当する成分は、初期値又は不
定値でよい)。
For example, in the calculation of field learning, vec (learning) = (k1, k2, k3, k4, k5, k6,...): Learning field vec (kanji) = (x1, x2, x3, x4, x5, x6,...): When the field labels k2 and k5 are selected as unnecessary labels in a state like an appearance kanji, the component k is calculated in the field learning calculation.
2, neglecting k5, vec (learning) '= (k1 + x1, k3 + x3, k4 + x4, k6 + x6,
…)) (The components corresponding to unnecessary fields may be initial values or indefinite values).

【0047】分野設定手段2は、各漢字に割り当てられ
た分野情報のうち、不要な分野ラベルを学習手段や後述
の評価手段で利用しないようにあらかじめ設定するため
のものであり、その効果は分野選択手段3と同様なもの
であるが、一時的な設定ではなく再設定されるまで有効
なものである。なお、分野設定手段2で選択された分野
ラベルに関する情報は、設定分野メモリ22に格納され
る。たとえば、設定手段で不要と設定された分野ラベル
数をuとすると、以後、すべての処理において漢字の分
野情報はn−u次元のベクトル情報として扱われる。不
要分野にあたる成分は初期値や不定でよい。
The field setting means 2 is for presetting unnecessary field labels in the field information assigned to each kanji so as not to be used by the learning means or the evaluation means described later. It is the same as the selection means 3, but is effective until it is reset rather than temporarily set. The information on the field label selected by the field setting means 2 is stored in the set field memory 22. For example, assuming that the number of field labels set to be unnecessary by the setting means is u, the field information of kanji is treated as nu-dimensional vector information in all the processes thereafter. The component corresponding to the unnecessary field may be an initial value or undefined.

【0048】次に、評価手段14について説明する。評
価手段14では、学習手段で得られた既入力文章の学習
分野と、漢字仮名交じり変換手段で得られた変換候補の
漢字表記部分の持つ分野情報との類似度を計算して、候
補の優先度を評価する。
Next, the evaluation means 14 will be described. The evaluation unit 14 calculates the similarity between the learning field of the already-input text obtained by the learning unit and the field information of the kanji notation part of the conversion candidate obtained by the kanji-kana conversion unit, and gives priority to the candidate. Evaluate the degree.

【0049】そして、漢字の分野情報をn次元のベクト
ル情報とした場合、内積計算によって類似度の計算を行
う。例えば、変換直前までの学習分野を、 vec(学習)=(k1,k2,k3,k4,…) 候補中の漢字表記部分の分野情報を、 vec(候補A)=(a1,a2,a3,a4,…) とした場合、 内積=k1×a1+k2×a2+k3×a3+k4×a4+… を計算して、内積の大きい候補をより類似度が高いと判
断する。
When the kanji field information is n-dimensional vector information, the similarity is calculated by inner product calculation. For example, the learning field immediately before the conversion is represented by vec (learning) = (k1, k2, k3, k4,...) The field information of the kanji notation part in the candidate is represented by vec (candidate A) = (a1, a2, a3, a4,...), the inner product is calculated as k1 × a1 + k2 × a2 + k3 × a3 + k4 × a4 +..., and a candidate having a larger inner product is determined to have higher similarity.

【0050】あるいは、分野情報をn次元空間の座標と
見なして、座標間の距離が近いほど類似度が高いと判断
する方法もある。 距離=sqrt((k1-a1)2+(k2-a2)2+(k3-a3)2+(k4-a4)2+…)
※sqrt:平方根 を計算して、距離の小さい候補をより類似度が高いと判
断する。
Alternatively, there is a method in which the field information is regarded as coordinates in an n-dimensional space, and it is determined that the closer the distance between the coordinates is, the higher the similarity is. Distance = sqrt ((k1-a1) 2 + (k2-a2) 2 + (k3-a3) 2 + (k4-a4) 2 + ...)
* Sqrt: Calculate the square root, and judge that the candidate with a small distance has higher similarity.

【0051】また、これら計算に利用する成分に制限を
かけて、類似度計算の精度を上げることが可能である。
これには不要な分野の悪影響を避けるため、学習分野の
各成分に対して、一定値以上のものしか計算に利用しな
い、あるいは、上位何個かの成分しか計算に利用しない
という方法がある。一定値の設定は分野情報中の各分野
との関連度の設定幅に応じて実験的に決定する。
Further, it is possible to limit the components used for these calculations to increase the accuracy of similarity calculation.
In order to avoid an adverse effect of unnecessary fields, there is a method in which only components having a certain value or more are used for calculation for each component in the learning field, or only some higher-order components are used for calculation. The setting of the constant value is experimentally determined according to the setting range of the degree of association with each field in the field information.

【0052】さらに、分野設定手段2で、使用する分野
情報があらかじめ設定されている場合は、その分野に該
当する成分のみを用いて類似度計算を行う。なお、漢字
によっては分野情報が与えられていない場合もあり、そ
の場合は類似度計算は行わない。
Further, when the field information to be used is previously set by the field setting means 2, the similarity calculation is performed using only the components corresponding to the field. Note that, depending on the kanji, field information may not be given, and in that case, similarity calculation is not performed.

【0053】評価手段の動作例としては、例えば入力文
字列「公し」をもとに漢字仮名交じり変換を行い「公
私」「公使」「公司」が得られると、次に、各漢字表記
の分野情報を漢字分野情報メモリ15から検索する。そ
して、各漢字の分野情報と学習分野とを上記計算方法に
もとづき計算する。その結果、例えば辞書に格納されて
いる通常の頻度情報では優先順位が「公私→公使→公
司」となるようなものが、漢字の分野情報にもとづく評
価によって「公使→公私→公司」のように優先順位を変
える。
As an example of the operation of the evaluation means, for example, if kanji kana conversion is performed based on the input character string "public" to obtain "public private", "legal envoy" and "kouji", then the kanji notation of each kanji is described. The field information is searched from the kanji field information memory 15. Then, the field information and the learning field of each kanji are calculated based on the above calculation method. As a result, for example, in the normal frequency information stored in the dictionary, the priority order is "Public private → Public ministry → Public corporation", but the evaluation based on the kanji field information changes to "Minister → Public private → Public corporation". Change priority.

【0054】また、入力文字によっては変換された候補
の漢字表記字数が異なる場合がる。例えば、入力文字
「近だいか」に対して、「近代化」「近代か」が検索さ
れた場合などである。この場合、各漢字に対する類似度
の和を求めたのでは、文字数のより多い候補が優先され
てしまうことが多い。したがって、複数文字からなる候
補については、最も類似度の高い1文字を選んで候補の
代表値としたり、類似度の和を文字数で割って平均化す
るなどの処理が必要である。優先度の決定した各候補
は、優先度順に出力メモリ23に格納される。
Also, depending on the input characters, the number of kanji characters to be converted may be different. For example, a case where "modernization" or "modernization" is searched for the input character "is close". In this case, if the sum of similarities for each kanji is calculated, a candidate having a larger number of characters is often given priority. Therefore, for a candidate consisting of a plurality of characters, it is necessary to perform processing such as selecting one character having the highest similarity as a representative value of the candidate, or dividing the sum of similarities by the number of characters and averaging. Each candidate whose priority is determined is stored in the output memory 23 in order of priority.

【0055】次に、入力手段1及び文字認識手段7につ
いて説明する。本装置の入力手段は、表示手段と一体化
された、例えば、ペン入力タブレットなどの手書き入力
機能を持つものを前提としている。さらに、手書き入力
においては、漢字や仮名の入力が可能な手書き文字認識
手段を必要とする。なお、入力手段、文字認識手段に関
しては既存の技術でよいため、詳細な説明は省く。
Next, the input means 1 and the character recognition means 7 will be described. It is assumed that the input means of the present apparatus is integrated with the display means and has a handwriting input function such as a pen input tablet. Furthermore, handwriting input requires handwritten character recognition means capable of inputting kanji and kana. Note that the input means and the character recognition means may be existing techniques, and thus detailed description is omitted.

【0056】以下、図2〜図5の処理フローチャートに
従い、処理の流れを説明する。処理の大まかな流れは図
2に示すものであり、各部の初期設定(ステップ20
1)を行なった後、学習関連の前処理(ステップ20
2)を行う。
Hereinafter, the flow of the processing will be described with reference to the processing flowcharts of FIGS. The general flow of the processing is shown in FIG.
After performing 1), pre-processing related to learning (step 20)
Perform 2).

【0057】これ以降は、入力手段1からの入力信号に
応じて各処理へ分岐する。入力信号が処理の終了要求で
あった場合(ステップ203)には、装置は処理を終了
する。そうでなく漢字仮名交じり変換の指示(ステップ
204)であった場合には、それまでに入力された文字
列に対して漢字仮名交じり変換処理を行い(ステップ2
07)、変換候補の表示処理を行う(ステップ20
8)。
Thereafter, the process branches to each process according to the input signal from the input means 1. If the input signal is a request to end the processing (step 203), the apparatus ends the processing. On the other hand, if the instruction is a conversion of kanji to kana conversion (step 204), a kanji to kana conversion process is performed on the character string input so far (step 2).
07), display processing of conversion candidates is performed (step 20).
8).

【0058】その後は変換候補の選択信号などによる確
定指示を待つ(ステップ209)。漢字仮名交じりの変
換指示でなかった場合(ステップ204)には、文字の
入力信号なので文字認識手段7において文字認識処理を
行う(ステップ205)。次に認識された結果は認識結
果メモリ9に格納され、入力文字列を表示手段4の所定
の表示エリアに表示していく(ステップ206)。
After that, it waits for a decision instruction by a conversion candidate selection signal or the like (step 209). If the conversion instruction is not a kanji-kana mixed conversion instruction (step 204), a character recognition process is performed by the character recognition means 7 because the input signal is a character (step 205). Next, the recognized result is stored in the recognition result memory 9, and the input character string is displayed in a predetermined display area of the display means 4 (step 206).

【0059】図3に初期設定(図2ステップ201)の
処理の流れを示す。分野選択手段3を備える装置では、
分野選択要求があった場合(ステップ301)、選択さ
れた分野情報を選択分野メモリ21に設定する(ステッ
プ302)。
FIG. 3 shows the flow of the process of the initial setting (step 201 in FIG. 2). In the device provided with the field selecting means 3,
If there is a field selection request (step 301), the selected field information is set in the selected field memory 21 (step 302).

【0060】図9は、分野選択を行う場合の入力および
表示手段の様子を表す模式図である。さらに、分野設定
手段2を備える装置では、分野設定要求があった場合
(ステップ303)、設定された分野情報を設定分野メ
モリ22に設定する(ステップ304)。図10は、分
野選択を行う場合の入力および表示手段の様子を表す模
式図である。
FIG. 9 is a schematic diagram showing the state of input and display means when selecting a field. Further, in the device provided with the field setting means 2, when there is a field setting request (step 303), the set field information is set in the set field memory 22 (step 304). FIG. 10 is a schematic diagram showing the state of input and display means when selecting a field.

【0061】図4に学習前処理(図2ステップ202)
の処理の流れを示す。学習前処理は学習手段17におい
て、外部記憶媒体などから文章を読み込んできた場合
に、一括して学習分野を作成する処理である。まず、文
章データを文章メモリ20に読み込む(ステップ40
1)。次に、学習メモリ21に設けられた文章ポインタ
に0を設定する(ステップ402)。
FIG. 4 shows a pre-learning process (step 202 in FIG. 2).
2 shows the flow of processing. The pre-learning process is a process of collectively creating a learning field when a text has been read from an external storage medium or the like by the learning means 17. First, the sentence data is read into the sentence memory 20 (step 40).
1). Next, 0 is set to the sentence pointer provided in the learning memory 21 (step 402).

【0062】文章ポインタは、文章メモリ中の文字列が
格納されているアドレスを指す変数で、0は文章の先頭
を指しているものとする。そして、文章ポインタが文章
末であるかを調べ(ステップ403)、文章末でなかっ
た場合には、文章ポインタの指す位置から文章データを
切り出す(ステップ404)。文章データの切り出しは
句読点や改行などの文章の切れ目単位で行う。
The sentence pointer is a variable that indicates the address where the character string in the sentence memory is stored, and it is assumed that 0 points to the beginning of the sentence. Then, it is checked whether the sentence pointer is at the end of the sentence (step 403). If the sentence pointer is not at the end of the sentence, the sentence data is cut out from the position indicated by the sentence pointer (step 404). Extraction of text data is performed in units of text breaks such as punctuation and line feed.

【0063】切り出した文章データに対して形態素解析
手段19において、形態素解析処理を行う(ステップ4
05)。次に、学習メモリ18に設けられた文字ポイン
タに0を設定する(ステップ406)。なお、文字ポイ
ンタは、形態素解析の対象となっている文字列の格納先
のアドレスを指す変数で、0は文字列の先頭を指してい
るものとする。そして、文字ポインタが文字列末である
かを調べ(ステップ407)、文字列末でなかった場合
には、文字列ポインタの指す各文字を調べる。
The morphological analysis means 19 performs morphological analysis processing on the extracted sentence data (step 4).
05). Next, 0 is set to the character pointer provided in the learning memory 18 (step 406). Note that the character pointer is a variable that indicates the address of the storage destination of the character string to be subjected to morphological analysis, and 0 indicates the head of the character string. Then, it is checked whether the character pointer is at the end of the character string (step 407). If it is not the end of the character string, each character pointed to by the character string pointer is checked.

【0064】まず、文字が漢字である場合(ステップ4
08)、形態素解析の結果を参照して固有名詞と解析さ
れた単語の一部かどうかを調べる(ステップ409)。
漢字であり固有名詞中の表記でもない場合には、漢字分
野情報15から該当する分野情報を検索する(ステップ
410)。検索された分野情報を用いて学習メモリ18
内の学習分野の値を更新し(ステップ411)、学習メ
モリへ格納しなおす。
First, when the character is a kanji (step 4
08), referring to the result of the morphological analysis, it is checked whether the word is a proper noun and a part of the analyzed word (step 409).
If it is a kanji and not a notation in a proper noun, the corresponding field information is searched from the kanji field information 15 (step 410). Learning memory 18 using searched field information
Are updated (step 411) and stored in the learning memory again.

【0065】文字ポインタの指す漢字に分野情報が付加
されていない場合には、学習分野の計算は行わない。そ
して、文字ポインタを1文字分更新(ステップ412)
してステップ407へ戻る。ステップ408において文
字が漢字でなかった場合と、ステップ409で固有名詞
中の表記であった場合には、文字ポインタの更新を行っ
てステップ407へ戻る。ステップ407において、文
字ポインタが文字列末に到達した場合は、文章ポインタ
を次の文章の先頭アドレスまで更新(ステップ413)
して、ステップ403へ戻る。ステップ403で文章ポ
インタが文章末に到達した場合は、学習前処理を終え
る。
When the field information is not added to the kanji pointed to by the character pointer, the calculation of the learning field is not performed. Then, the character pointer is updated by one character (step 412).
And returns to step 407. If the character is not a kanji in step 408 and if it is a notation in a proper noun in step 409, the character pointer is updated and the process returns to step 407. If the character pointer has reached the end of the character string in step 407, the text pointer is updated to the start address of the next text (step 413).
Then, the process returns to step 403. If the text pointer has reached the end of the text in step 403, the pre-learning process ends.

【0066】図5に漢字仮名交じり変換処理(図2ステ
ップ207)の処理の流れを示す。漢字仮名交じり変換
手段11では、入力メモリ10に格納された文字列をも
とに単語辞書メモリ12を検索し(ステップ501)、
検索された候補を変換結果メモリ13に格納する(ステ
ップ502)。次に、評価結果メモリ16に設けられた
候補ポインタに0を設定する(503)。なお、候補ポ
インタは、変換結果メモリ13に格納された変換結果文
字列の格納先アドレスを指す変数で、0は先頭候補を指
しているものとする。
FIG. 5 shows the flow of the kanji kana conversion process (step 207 in FIG. 2). The kanji kana conversion means 11 searches the word dictionary memory 12 based on the character string stored in the input memory 10 (step 501).
The searched candidates are stored in the conversion result memory 13 (step 502). Next, 0 is set to the candidate pointer provided in the evaluation result memory 16 (503). Note that the candidate pointer is a variable that indicates the storage destination address of the conversion result character string stored in the conversion result memory 13, and 0 indicates the leading candidate.

【0067】次に、候補ポインタが最終候補の次を指し
ているかを調べる(ステップ504)。最終候補の次で
なければ、評価結果メモリ16に設けられた文字ポイン
タに0を設定する(ステップ505)。なお、文字ポイ
ンタは、変換結果メモリ13に格納された変換候補の
内、候補ポインタが現在指している候補文字列の格納先
アドレスを指す変数で、0は候補文字列の先頭を指して
いるものとする。そして、文字ポインタが文字列末を指
しているかを調べ(ステップ506)、文字列末でなけ
れば、文字ポインタが指している文字の分野情報を、漢
字分野情報メモリ15から検索する(ステップ50
7)。次に、検索された分野情報をもとに分野の類似度
計算を行い(ステップ508)、評価結果を評価結果メ
モリ16に格納する。
Next, it is checked whether or not the candidate pointer points after the final candidate (step 504). If it is not next to the final candidate, 0 is set to the character pointer provided in the evaluation result memory 16 (step 505). The character pointer is a variable indicating the storage destination address of the candidate character string currently pointed to by the candidate pointer among the conversion candidates stored in the conversion result memory 13, and 0 indicates the head of the candidate character string. And Then, it is checked whether the character pointer points to the end of the character string (step 506). If not, the field information of the character pointed to by the character pointer is searched from the kanji field information memory 15 (step 50).
7). Next, the similarity of the field is calculated based on the searched field information (step 508), and the evaluation result is stored in the evaluation result memory 16.

【0068】分野情報が検索されなかった場合は、類似
度計算は行わずデフォルト(たとえば0)の評価値を与
えて処理を終える。そして、文字ポインタを1文字分更
新して(ステップ509)、ステップ506へ戻る。ス
テップ506で文字ポインタが文字列末に到達した場合
は、先に計算した類似度に対して文字数による平均化処
理を行い(ステップ510)、再計算して平均化された
類似度を評価結果メモリへ格納しなおす(ステップ51
1)。なお、文字数が1の場合は平均化処理は行わな
い。そして、候補ポインタを次の候補まで更新して(ス
テップ512)、ステップ504へ戻る。ステップ50
4で最終候補の次へ到達した場合には、評価結果メモリ
を参照し、類似度の高い順に候補を出力メモリ23へ書
き出し(ステップ513)、処理を終了する。
If the field information is not searched, the similarity calculation is not performed, and a default (for example, 0) evaluation value is given, and the process is terminated. Then, the character pointer is updated by one character (step 509), and the process returns to step 506. If the character pointer has reached the end of the character string in step 506, the previously calculated similarity is averaged by the number of characters (step 510), and recalculated and averaged similarity is stored in an evaluation result memory. (Step 51)
1). When the number of characters is 1, the averaging process is not performed. Then, the candidate pointer is updated to the next candidate (step 512), and the process returns to step 504. Step 50
When the next candidate is reached after the last candidate, the candidate is written to the output memory 23 in descending order of similarity with reference to the evaluation result memory (step 513), and the process is terminated.

【0069】図11および図12は、入力及び表示手段
の様子を表す模式図である。図11は、手書き入力によ
り文字「公し」が入力された場合であり、図中aは入力
された文章データを表示する文章表示エリア、bは手書
き入力を行うための手書き入力エリア、cは漢字仮名交
じり変換の変換候補を一覧表示するための変換候補一覧
表示エリアであり、図12以下も同様である。
FIGS. 11 and 12 are schematic diagrams showing the state of the input and display means. FIG. 11 shows a case where the character “public” is input by handwriting input, in which a is a text display area for displaying the input text data, b is a handwriting input area for performing handwriting input, and c is a handwriting input area. This is a conversion candidate list display area for displaying a list of conversion candidates for kanji kana conversion, and the same applies to FIG. 12 and subsequent figures.

【0070】図12は、入力文字列「公し」に対して、
漢字仮名交じり変換を行った上で、直前までに入力され
ていた文章の学習分野をもとに評価処理を施し、文章表
示エリアに第1候補の「公使」が表示され、変換候補一
覧表示エリアに「公使、公私、公司」の各候補が優先度
順に表示されている場合を表している。
FIG. 12 shows that the input character string “public”
After performing conversion with Kanji and Kana, evaluation processing is performed based on the field of study of the sentence that was input immediately before, and the first candidate "Minister" is displayed in the sentence display area, and the conversion candidate list display area Shows the case where “candidate, public and private, corporation” candidates are displayed in order of priority.

【0071】[0071]

【発明の効果】本発明では、入力文字列を仮名漢字文字
列に変換する変換装置において、複数の候補があった場
合に、漢字に付加された分野情報を利用して優先度を評
価することにより、正解率の高い仮名漢字変換を行うも
のである。
According to the present invention, in a conversion device for converting an input character string to a kana-kanji character string, when there are a plurality of candidates, the priority is evaluated using the field information added to the kanji. Thus, kana-kanji conversion with a high correct answer rate is performed.

【0072】よって、候補が多数存在する場合でも漢字
の分野情報による優先度評価により候補選択の負担が軽
減される。また、漢字分野情報を細分化することによっ
て、幅広い内容の文章に応じた優先が可能となる。
Therefore, even when there are many candidates, the burden of selecting candidates can be reduced by the priority evaluation based on the kanji field information. Further, by subdividing the kanji field information, it is possible to give priority to sentences having a wide range of contents.

【0073】入力される文章に即して漢字の分野学習を
行うため、文章内容の変化にも対応が可能であり、文章
の内容によらず候補の優先が可能である。漢字分野情報
は、漢字単体に与える情報であるため、単語ごとに分野
を与えるようにデータの組み合わせ的爆発が発生せず、
必要とするデータの絶対量が小さい。このことは、装置
の小型化、低価格化が図れ、処理能力の低い装置におい
ても、本発明は実現可能である。
Since the field learning of kanji is performed in accordance with the input sentence, it is possible to cope with a change in the sentence content, and it is possible to prioritize candidates regardless of the sentence content. Since the kanji field information is information given to kanji alone, there is no explosive combination of data that gives a field for each word.
The absolute amount of data required is small. As a result, the present invention can be realized even in an apparatus having a small processing capacity and a low processing capacity.

【0074】さらに、漢字の分野情報は基本的に漢字の
出現頻度により作成可能であるため、漢字の読み情報を
必要とする比率テーブルなどを用いる必要がなくデータ
の作成が容易である。また、他の装置で作成した文章を
読み込んだ場合など、既に入力された文章の分野情報を
一括して得るための前処理においても、漢字の照合は単
語の照合に比べ、処理負担が圧倒的に軽く、高速かつ容
易に実現可能である。
Further, since the kanji field information can be basically created based on the appearance frequency of the kanji, there is no need to use a ratio table or the like which requires kanji reading information, and data can be easily created. Also, in pre-processing to collectively obtain field information of already input text, such as when reading text created on other devices, Kanji collation has an overwhelming processing load compared to word collation. It is light, fast and easy to implement.

【0075】さらに、同種の内容の文章を入力する機会
が多い利用者については、分野情報を個別に設定するこ
とで、分野学習がより正確に行え変換精度が更に向上す
る。
Further, for a user who frequently inputs texts of the same kind, by setting the field information individually, field learning can be performed more accurately, and conversion accuracy can be further improved.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本発明の一実施の形態における装置の基本構成
図である。
FIG. 1 is a basic configuration diagram of an apparatus according to an embodiment of the present invention.

【図2】本発明の一実施の形態における処理の流れを示
すフローチャートである。
FIG. 2 is a flowchart showing a flow of processing according to the embodiment of the present invention.

【図3】本発明の一実施の形態における処理の流れを示
すフローチャートである。
FIG. 3 is a flowchart showing a flow of processing according to the embodiment of the present invention.

【図4】本発明の一実施の形態における処理の流れを示
すフローチャートである。
FIG. 4 is a flowchart showing a flow of processing according to the embodiment of the present invention.

【図5】本発明の一実施の形態における処理の流れを示
すフローチャートである。
FIG. 5 is a flowchart showing a flow of processing according to the embodiment of the present invention.

【図6】漢字仮名交じり変換用辞書の構造を示す模式図
である。
FIG. 6 is a schematic diagram showing a structure of a kanji / kana kana conversion dictionary.

【図7】漢字分野情報の内容を示す模式図である。FIG. 7 is a schematic diagram showing the contents of kanji field information.

【図8】学習メモリの内容を示す模式図である。FIG. 8 is a schematic diagram showing the contents of a learning memory.

【図9】分野選択処理を起動した場合の入力および表示
手段の様子を表す模式図である。
FIG. 9 is a schematic diagram showing a state of input and display means when a field selection process is activated.

【図10】分野設定処理を起動した場合の入力および表
示手段の様子を表す模式図である。
FIG. 10 is a schematic diagram showing a state of input and display means when a field setting process is activated.

【図11】入力および表示手段の様子を表す模式図であ
る。
FIG. 11 is a schematic diagram showing a state of input and display means.

【図12】入力および表示手段の様子を表す模式図であ
る。
FIG. 12 is a schematic diagram illustrating a state of input and display means.

【符号の説明】[Explanation of symbols]

1 入力手段 2 分野設定手段 3 分野選択手段 4 表示手段 5 入出力制御手段 6 中央処理装置 7 文字認識手段 8 文字認識辞書メモリ 9 認識結果メモリ 10 入力メモリ 11 漢字仮名交じり変換手段 12 単語辞書メモリ 13 変換結果メモリ 14 評価手段 15 漢字分野情報メモリ 16 評価結果メモリ 17 学習手段 18 学習メモリ 19 形態素解析手段 20 文章メモリ 21 選択分野メモリ 22 設定分野メモリ REFERENCE SIGNS LIST 1 input means 2 field setting means 3 field selecting means 4 display means 5 input / output control means 6 central processing unit 7 character recognition means 8 character recognition dictionary memory 9 recognition result memory 10 input memory 11 kanji kana conversion means 12 word dictionary memory 13 Conversion result memory 14 Evaluation means 15 Kanji field information memory 16 Evaluation result memory 17 Learning means 18 Learning memory 19 Morphological analysis means 20 Sentence memory 21 Selected field memory 22 Setting field memory

Claims (7)

【特許請求の範囲】[Claims] 【請求項1】 入力文字列を仮名漢字交じり文字列に変
換する仮名漢字変換装置において、 少なくとも単語の表記情報と各表記に対する読みを記憶
した単語辞書と、 各漢字に対して分野情報を付加して記憶する分野情報辞
書と、 前記分野情報辞書に基づき、過去に入力された文字列中
の漢字から分野情報を取得する学習手段と、 入力された文字列によって、前記単語辞書から単語候補
を検索する単語検索手段と、 前記学習手段により得られた分野情報に基づいて、前記
単語検索手段により検索された単語の候補の優先づけを
行う評価手段を備えたことを特徴とする仮名漢字変換装
置。
1. A kana-kanji conversion device for converting an input character string into a kana-kanji mixed character string, comprising: a word dictionary storing at least word notation information and readings for each notation; and field information added to each kanji. A field information dictionary that stores and stores, based on the field information dictionary, learning means for acquiring field information from kanji in a previously input character string, and searching for a word candidate from the word dictionary by the input character string A kana-to-kanji conversion device, comprising: a word search unit that performs a search; and an evaluation unit that prioritizes word candidates searched by the word search unit based on field information obtained by the learning unit.
【請求項2】 前記分野情報は、 n個の分野ラベルからなり、 各ラベルには分野との関連度を数値化したものが記憶さ
れ、 各漢字に対してn次元のベクトル情報として分野情報を
構成することを特徴とする前記請求項1記載の仮名漢字
変換装置。
2. The field information is composed of n field labels, each of which stores a numerical value of the degree of relevance to the field, and stores the field information as n-dimensional vector information for each kanji. 2. The kana-kanji conversion device according to claim 1, wherein the kana-kanji conversion device is configured.
【請求項3】 前記評価手段は、 候補の優先づけにおいて、前記学習手段により得られる
n次元ベクトルの漢字分野情報と、 各単語候補のn次元ベクトル化された漢字分野情報の内
積を算出し、値の大きい候補を優先することを特徴とす
る前記請求項2記載の仮名漢字変換装置。
3. The evaluation means calculates an inner product of n-dimensional vector kanji field information obtained by the learning means and n-dimensional vectorized kanji field information of each word candidate in prioritization of candidates. 3. The kana-kanji conversion device according to claim 2, wherein a candidate having a large value is prioritized.
【請求項4】 前記分野情報は、 n個の分野ラベルからなり、 各ラベルには分野との関連度を数値化したものが記憶さ
れ、 各漢字に対してn次元空間の座標情報として分野情報を
構成するものであり、 前記評価手段は、 候補の優先づけにおいて、前記学習手段により得られる
n次元座標化された漢字分野情報と、各候補のn次元座
標化された漢字分野情報の距離を算出し、値の小さい候
補を優先することを特徴とする前記請求項1記載の仮名
漢字変換装置。
4. The field information is composed of n field labels, and each label stores a numerical value of the degree of relevance to the field, and for each kanji, the field information is coordinate information in an n-dimensional space. The evaluation means, when prioritizing the candidates, calculates the distance between the n-dimensional coordinated kanji field information obtained by the learning means and the n-dimensional coordinated kanji field information of each candidate. 2. The kana-kanji conversion device according to claim 1, wherein a candidate having a small value is calculated and given priority.
【請求項5】 前記単語辞書は少なくとも表記情報と各
表記に対する読みと品詞情報から構成され、 前記単語辞書に基づいて文字列から単語を切り出し、品
詞を特定する形態素解析手段と備え、 前記学習手段は過去に入力された文字列を前記形態素解
析手段により単語に分割し、所定の単語についてのみ分
野情報を得ることを特徴とする前記請求項1記載の仮名
漢字変換装置。
5. The vocabulary analysis means comprising at least notation information, readings for each notation and part of speech information, extracting words from a character string based on the word dictionary, and specifying a part of speech, and the learning means. 2. The kana-kanji conversion apparatus according to claim 1, wherein the character string input in the past is divided into words by the morphological analysis means, and field information is obtained only for predetermined words.
【請求項6】 前記学習手段は、過去に入力された文字
列を前記形態素解析手段により単語に分割し、固有名詞
については分野情報を取得しないことを特徴とする前記
請求項1記載の仮名漢字変換装置。
6. The kana-kanji character according to claim 1, wherein said learning means divides a character string inputted in the past into words by said morphological analysis means, and does not acquire field information for proper nouns. Conversion device.
【請求項7】 漢字分野情報を構成する各分野ラベルの
うち、操作者が入力する文章に即した分野情報を予め設
定する分野設定手段を備え、 前記評価手段において、前駆分野設定手段により設定さ
れて分野の分野ラベルに基づいて優先候補を決定するこ
とを特徴とする前記請求項2〜4記載の仮名漢字変換装
置。
7. A field setting means for presetting field information corresponding to a sentence inputted by an operator among field labels constituting kanji field information, wherein said evaluation means sets said field information by said precursor field setting means. 5. The kana-kanji conversion apparatus according to claim 2, wherein priority candidates are determined based on a field label of the field.
JP9069444A 1997-03-24 1997-03-24 Japanese syllabary-chiness character converting device Pending JPH10269208A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9069444A JPH10269208A (en) 1997-03-24 1997-03-24 Japanese syllabary-chiness character converting device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9069444A JPH10269208A (en) 1997-03-24 1997-03-24 Japanese syllabary-chiness character converting device

Publications (1)

Publication Number Publication Date
JPH10269208A true JPH10269208A (en) 1998-10-09

Family

ID=13402826

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9069444A Pending JPH10269208A (en) 1997-03-24 1997-03-24 Japanese syllabary-chiness character converting device

Country Status (1)

Country Link
JP (1) JPH10269208A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007272739A (en) * 2006-03-31 2007-10-18 Nec Corp Character input conversion unit, character input conversion method, program

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007272739A (en) * 2006-03-31 2007-10-18 Nec Corp Character input conversion unit, character input conversion method, program

Similar Documents

Publication Publication Date Title
US5745602A (en) Automatic method of selecting multi-word key phrases from a document
CN102122298B (en) Method for matching Chinese similarity
CN103970798B (en) The search and matching of data
US7788089B2 (en) Document based character ambiguity resolution
CN102455845B (en) Character entry method and device
JP2741575B2 (en) Character recognition character completion method and computer system
JP5231698B2 (en) How to predict how to read Japanese ideograms
JP2002117027A (en) Feeling information extracting method and recording medium for feeling information extracting program
JP2001331514A (en) Device and method for document classification
KR20040101678A (en) Apparatus and method for analyzing compounded morpheme
CN101667099B (en) A kind of method and apparatus of stroke connection keyboard text event detection
JP2008059389A (en) Vocabulary candidate output system, vocabulary candidate output method, and vocabulary candidate output program
JPH10269210A (en) Character input device
JP2009265736A (en) Electronic apparatus, control method thereof and computer program
JPWO2015075920A1 (en) Input support apparatus, input support method, and program
JP3952964B2 (en) Reading information determination method, apparatus and program
JP2007122660A (en) Document data processor and document data processing program
JPH10269208A (en) Japanese syllabary-chiness character converting device
WO2021221535A1 (en) System and method for augmenting a training set for machine learning algorithms
KR101247346B1 (en) System and method for searching dictionary
JP3369127B2 (en) Morphological analyzer
JP6181890B2 (en) Literature analysis apparatus, literature analysis method and program
KR102278288B1 (en) Apparatus and method for searching text based on phoneme
JP2019211884A (en) Information search system
KR102317910B1 (en) Apparatus and method for analyzing Chinese morphemes