JPH0630100B2 - Kana-Kanji conversion method - Google Patents

Kana-Kanji conversion method

Info

Publication number
JPH0630100B2
JPH0630100B2 JP59195698A JP19569884A JPH0630100B2 JP H0630100 B2 JPH0630100 B2 JP H0630100B2 JP 59195698 A JP59195698 A JP 59195698A JP 19569884 A JP19569884 A JP 19569884A JP H0630100 B2 JPH0630100 B2 JP H0630100B2
Authority
JP
Japan
Prior art keywords
storage device
word
dictionary storage
word dictionary
kana
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP59195698A
Other languages
Japanese (ja)
Other versions
JPS6175467A (en
Inventor
佐敏 山内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP59195698A priority Critical patent/JPH0630100B2/en
Publication of JPS6175467A publication Critical patent/JPS6175467A/en
Publication of JPH0630100B2 publication Critical patent/JPH0630100B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】 技術分野 本発明は仮名漢字変換方式、詳細には、日本語ワードプ
ロセッサ等のような自然言語処理技術を用いた仮名漢字
変換方式に関する。
TECHNICAL FIELD The present invention relates to a kana-kanji conversion system, and more particularly to a kana-kanji conversion system using a natural language processing technique such as a Japanese word processor.

従来技術 従来、日本語ワードプロセッサ等のような日本語処理装
置においては、オペレータが操作する入力装置に入力し
た仮名列に対して、仮名と漢字の混在した仮名漢字の変
換を行っている。このような仮名漢字変換方式の中で、
特に漢字単語と漢字単語とを接続して形成する複合語の
処理の問題が大きくなってきている。
2. Description of the Related Art Conventionally, in a Japanese processing device such as a Japanese word processor, a kana / kanji mixed with kana and kanji is converted to a kana string input to an input device operated by an operator. In this Kana-Kanji conversion method,
In particular, the problem of processing compound words formed by connecting kanji words and kanji words is becoming more serious.

特に、特公昭58−4378号公報に開示されているよ
うに、組合せにより単語辞書を検索し、単語同士の合成
が可能かどうかの判定手段を有し、それの判定結果によ
り単語同士の合成の確定、非確定を行なう方式や、特開
昭56−38665号公報に開示されているように、単
語間同士の結び付きの強さを検定して複合語となりうる
かどうかの判定を行なう方式がある。
In particular, as disclosed in Japanese Examined Patent Publication No. Sho 58-4378, there is a means for searching a word dictionary by a combination and determining whether or not words can be combined, and the result of the judgment determines whether words can be combined. There is a method of confirming or unconfirming, and a method of judging whether or not it can be a compound word by testing the strength of connection between words as disclosed in Japanese Patent Laid-Open No. 56-38665.

しかしながら、それらの方式では単語同士の結びつきの
自由度が、特に同音異義語の中では大きいので、余程厳
しい判定基準を設けていないことには誤った判定をし、
誤解析のもととなってしまう。実際上は、その判定基準
を厳しくするのにも限度があり、誤解析の率が高く実用
的には向いていない欠点があった。
However, in these methods, the degree of freedom in connecting words is large, especially in homonyms, so it is erroneous that a strict criterion is not set,
It will be a source of erroneous analysis. In practice, there is a limit to how strict the criterion is, and there is a drawback that the rate of erroneous analysis is high and it is not suitable for practical use.

目的 本発明はこのような従来技術の欠点を解消し、同音異義
語の判別を容易にいかも確実に行なうことのできる仮名
漢字変換方式を提供することを目的とする。
An object of the present invention is to solve the above-mentioned drawbacks of the prior art and to provide a kana-kanji conversion method capable of easily and surely identifying homonyms.

構成 本発明は上記の目的を達成させるため入力装置により入
力された仮名文字列を単語辞書記憶装置内で検索するこ
とにより単語単位の変換候補語を抽出して漢字と仮名の
混った仮名漢字に変換する仮名漢字変換方式において、
隣接単語の組合せを複合語として抽出して、その読みを
検定することによって同音異義語の判別を行なうことを
特徴としたものである。
Structure In order to achieve the above object, the present invention extracts a conversion candidate word in units of words by searching a word dictionary storage device for a kana character string input by an input device to obtain kana and kana mixed with kana and kana. In the Kana-Kanji conversion method for converting to
The feature is that the combination of adjacent words is extracted as a compound word, and its reading is tested to identify homonyms.

以下、本発明の実施例に基づいて具体的に説明する。Hereinafter, specific description will be given based on examples of the present invention.

第1図は本発明を日本語ワードプロセッサに適用したと
きの機能別全体ブロック図である。第1図において、本
実施例はキーボード1、入力文字バッファ2、仮名漢字
変換制御部3、単語辞書記憶装置4、複合語辞書記憶装
置5、品詞活用表部6、接続重み表部7、評価器8、出
力文字バッファ9、陰極線管(CRT)10、文書ファイル
部11、プリンタ12から構成されている。
FIG. 1 is an overall block diagram by function when the present invention is applied to a Japanese word processor. In FIG. 1, a keyboard 1, an input character buffer 2, a kana-kanji conversion control unit 3, a word dictionary storage device 4, a compound word dictionary storage device 5, a part-of-speech utilization table unit 6, a connection weight table unit 7, and an evaluation are shown in FIG. It comprises a container 8, an output character buffer 9, a cathode ray tube (CRT) 10, a document file section 11 and a printer 12.

キーボード1は、入力装置の一例で、ひらがな、かたか
な、アルファベット等の文字、数字、記号等の表音文字
を入力する表音文字キー、仮名漢字変換を指示する変換
キー等のファンクションキーを有する。入力文字列バッ
ファ2はキーボード1から次々に入力される入力仮名文
字列を一時的に蓄積し、仮名漢字変換処理を終了した入
力仮名文字列を部分的に次々と消去する。
The keyboard 1 is an example of an input device, and has function keys such as phonetic character keys for inputting phonetic characters such as characters such as hiragana, katakana, alphabet, numbers, and symbols, and conversion keys for instructing kana-kanji conversion. Have. The input character string buffer 2 temporarily stores the input kana character strings input one after another from the keyboard 1 and partially erases the input kana character strings that have undergone the kana-kanji conversion processing.

仮名漢字変換制御部3は仮名漢字の処理手順のプログラ
ムを記憶するメモリと、入力文字列バッファ2からデー
タを取込んだり、そのデータをもとにして後述の単語や
複合語辞書記憶装置3,4を検索したりしてデータを取込
む際のバッファと、品詞活用表部6から列(うけ)と行
(かかり)の位置のデータを取込んだり、接続重み表部
7から該当する接続重みのデータを取込む際のバッファ
と、評価器8から演算した評価値とか第1位候補語(候
補語の中で評価最大の候補語)や第2位候補語を記憶し
ておくメモリと、ワークエリアとを含み、後述するよう
に他の機能の制御する。
The kana-kanji conversion control unit 3 fetches data from the input character string buffer 2 and a memory for storing a program of a kana-kanji processing procedure, and based on the data, a word and compound word dictionary storage device 3, which will be described later, A buffer used when retrieving 4 or fetching data, fetching data at the positions of columns (rows) and rows (hangs) from the part-of-speech utilization table 6, or the corresponding connection weight from the connection weight table 7 And a memory for storing the evaluation value calculated from the evaluator 8, the first candidate word (the candidate word having the largest evaluation among the candidate words) and the second candidate word, The work area and other functions are controlled as described later.

単語辞書記憶装置4は表音文字である入力カナ文字を表
記するのに必要な表記文字である単語(たとえば、自立
語、付属語、接辞語や助数詞等。また、動詞、形容詞の
活用形すべてを各一単語として扱う。)の読み、その表
記、その品詞、その頻度ランク、その出力順位学習、複
合語辞書記憶装置5のアドレスもしくはシーケンスナン
バーとなるポインタの項目を格納している。
The word dictionary storage device 4 is a word (for example, an independent word, an adjunct, an affix, a classifier, etc.) which is a notation character necessary for notifying an input kana character that is a phonetic character. Also, all inflected forms of verbs and adjectives. Is treated as one word.), Its notation, its part of speech, its frequency rank, its output rank learning, the address of the compound word dictionary storage device 5 or the item of the pointer serving as the sequence number.

複合語辞書記憶装置5は単語辞書記憶装置4中に格納さ
れている単語が複数つらなって1つの概念を表わす複合
語で、隣りどうしの単語の関係を記述している辞書。例
えば、「超音速飛行機」の2つの単語同士の組合わせで
ある「超−高速」、「高速−飛行」、「飛行−機」の組
合せで複合語を構成することを表現する。
The compound word dictionary storage device 5 is a compound word that represents one concept by combining a plurality of words stored in the word dictionary storage device 4, and is a dictionary describing the relationship between adjacent words. For example, it is expressed that a compound word is composed of a combination of "super-high speed", "high speed-flying", and "flying-aircraft" which is a combination of two words "supersonic airplane".

この辞書記憶装置の表現方法はいろいろとあるが、第1
として単語辞書記憶装置4中の各単語のアドレスもしく
はシーケンシャルナンバーを複合語の構成となるように
対で記憶しておく、第2に単語辞書記憶装置4中のポイ
ンタ欄に複合語辞書記憶装置5の対応語の先頭格納アド
レスを記録しておき、複合語辞書記憶装置5の中には複
合語を形成している後続単語の単語辞書記憶装置4中の
アドレスもしくはシーケンシャルナンバーを記録してお
く。なお、「超高速飛行機」等のように後続の単語が複
数ある場合は連続して記録しておく。その場合、他の前
出単語に対応する後続単語との境界の識別は先頭の1ビ
ットを0と1とを交互に変化させて使用することにより
行なわれる。なお、アドレス,シーケンシャルナンバー
は、これらを総称してアドレス情報と呼ぶことができ
る。
Although there are various ways of expressing this dictionary storage device,
The address or sequential number of each word in the word dictionary storage device 4 is stored as a pair so as to form a compound word. Secondly, the compound word dictionary storage device 5 is stored in the pointer column of the word dictionary storage device 4. The corresponding beginning address of the corresponding word is recorded, and the address or sequential number of the subsequent word forming the compound word in the word dictionary storage device 4 is recorded in the compound word dictionary storage device 5. If there are a plurality of subsequent words such as "super high-speed airplane", record them continuously. In that case, the boundary between the preceding word and the succeeding word corresponding to the other preceding word is identified by alternately changing the leading 1 bit between 0 and 1. The address and the sequential number can be generically called address information.

品詞活用表部6は単語辞書記憶装置4を検索した抽出し
た単語の品詞とその単語の前後に接続する単語の品詞で
もって後述の接続重み表部7の接続重み表の行(かか
り)と列(うけ)の場所を決定するための索引表を格納
している。なお、体言系は「かかり」と「うけ」の行番
号、列番号のみが記録してあるが、用言系は語尾をも記
録してある。
The part-of-speech utilization table unit 6 is a row (column) and a column of a connection weight table of a connection weight table unit 7, which will be described later, with the part-of-speech of the extracted word searched in the word dictionary storage device 4 and the part-of-speech of the word connected before and after the word. It stores an index table for determining the location of (uke). In addition, the synonym system records only the line numbers and column numbers of "bare" and "uke", but the grammatical system also records the endings.

接続重み表部7は品詞の行と列とが配置され、それらの
交差部分にマトリックス状に単語間の接続の程度を示す
数値が配置されている。品詞活用表部6で指定した行番
号は列番号との交差部の数値がそれらの品詞を有する単
語の接続の強さを示す。その中の数値としては、0;接
続不可。1;接続することはあるが非常にまれである。
2;一般的に接続する。3;特に接続が強い。というよ
うに4ランクに設定してある。
The connection weight table 7 has rows and columns of parts of speech arranged therein, and numerical values indicating the degree of connection between words are arranged in a matrix at the intersections thereof. The row number specified in the part-of-speech utilization table section 6 indicates the connection strength of the word having the part-of-speech at the intersection with the column number. The numerical value among them is 0; connection is not possible. 1; Connected, but very rare.
2; Generally connected. 3; Particularly strong connection. It is set to 4 ranks.

評価器8は単語辞書記憶装置4から抽出した単語のよみ
長、頻度ランク、また、接続重み表部7から抽出した単
語間の接続重み等のパラメータにより、扱っている単語
がその位置にありうる尤らしさを評価する。なお、評価
演算する式の一例としては、 単語のよみ長×3+頻度ランク+(接続重み)=評価
値 を用いる 出力文字列バッファ9は評価器8で評価された単語を評
価値順に一時的に蓄積したり、確定した単語を順次確定
順にメモリする。
The evaluator 8 can find the word being handled at that position depending on parameters such as the reading length and frequency rank of the word extracted from the word dictionary storage device 4 and the connection weight between words extracted from the connection weight table unit 7. Evaluate the likelihood. As an example of the expression for the evaluation calculation, the word length x 3 + frequency rank + (connection weight) 2 = evaluation value is used. The output character string buffer 9 temporarily stores the words evaluated by the evaluator 8 in the order of evaluation values. The words that have been accumulated or fixed are sequentially stored in the fixed order.

CRT10は表示装置の1例で、出力文字列バッファ9に
一時的に蓄積された未確定の単語列で一番評価値の高い
単語例を表示して、オペレータからの確定かどうかの確
認をうるための表示装置。
The CRT 10 is an example of a display device, and displays an example of the word with the highest evaluation value in the undetermined word string temporarily stored in the output character string buffer 9 to allow the operator to confirm whether or not it is confirmed. Display device for.

文書ファイル部11はCRT10で確認、修正された単語
列を文書的にファイル化して蓄積する記憶装置である。
The document file unit 11 is a storage device that stores the word strings confirmed and corrected by the CRT 10 in a document format.

プリンタ12は文書ファイル部11の内容をプリントア
ウトする装置。
The printer 12 is a device for printing out the contents of the document file section 11.

第2図は単語辞書記憶装置4の内容の一部を模式的に示
した図、第3図は複合辞書記憶装置5の内容の2種類の
実施例で、第3図(a)は前述の第1の方式で、左側に
は、該当単語のポインタに相当する複合語辞書記憶装置
5のアドレスが記録されており、真中には、該当単語の
単語辞書記憶装置4の中のアドレスが記録されており、
右側にはその該当単語の後続単語の単語辞書記憶装置4
の中のアドレスが記録されている。第3図(b)は前述の
第2の方式で、境界識別フラグ1ビットで左側に記録さ
れており、右側には、後続単語の単語辞書記憶装置4の
中におけるアドレスが記録されている。
FIG. 2 is a diagram schematically showing a part of the contents of the word dictionary storage device 4, FIG. 3 shows two kinds of embodiments of the contents of the composite dictionary storage device 5, and FIG. According to the first method, the address of the compound word dictionary storage device 5 corresponding to the pointer of the corresponding word is recorded on the left side, and the address of the word dictionary storage device 4 of the corresponding word is recorded in the middle. And
On the right side, the word dictionary storage device 4 of the subsequent words of the corresponding word
The address inside is recorded. FIG. 3 (b) shows the above-mentioned second method, in which a boundary identification flag of 1 bit is recorded on the left side, and the address of the succeeding word in the word dictionary storage device 4 is recorded on the right side.

第4図は品詞活用表部6の内容の一部を模式的に示した
図で、「うけ」の欄及び「かかり」の欄に列番号、行番
号が記録されている。
FIG. 4 is a diagram schematically showing a part of the contents of the part-of-speech utilization table section 6, in which the column numbers and the row numbers are recorded in the “uke” column and the “hang” column.

第5図は接続重み表部7の接続重み表を概念的に示した
模式図で、行には品詞活用表のかかり番号(行番号)を
示し、列には品詞活用表のうけ番号(列番号)を示し、
それらの番号の行列部には4ランクの接続重みの数値が
格納されている。
FIG. 5 is a schematic diagram conceptually showing the connection weight table of the connection weight table unit 7, in which the row indicates the number of the part-of-speech utilization table (row number), and the column indicates the receiving number (column) of the part-of-speech utilization table. Number)
Numerical values of connection weights of four ranks are stored in the matrix part of these numbers.

第6図は本実施例の一例を示すフローチャートである。
次に、「最近は多くの兼業農家がいます。」の仮名漢字
変換文を作成する例で説明する。「最近は多くの」迄の
解析が進んでいて、その文の末尾の「の」は格助詞の
「の」として切り出されているとする。この時点では品
詞活用表部6の表の格助詞「の」の欄の「かかり」から
接続重み表部7の行(かかり)番号を指定している状態
である。
FIG. 6 is a flowchart showing an example of this embodiment.
Next, an example of creating a kana-kanji conversion sentence of "There are many part-time farmers recently" is explained. It is assumed that the analysis up to "a lot of these days" is progressing, and the "no" at the end of the sentence is cut out as the case particle "no". At this point in time, the line (barrier) number of the connection weight table part 7 is specified from "bare" in the case particle "no" column of the table of the part-of-speech utilization table part 6.

次に、キーボード1から「けんぎょうのうか…」と次々
と入力され、一旦入力文字バッファ2に蓄積される。こ
の入力時にはキーボード1から1文字入力がある毎に(S
20)、記号か文字かの判断がなされ(S21)、文字の場合、
n文字たまったかどうかの判断がなされる(S22)。記号
の場合は次のプロセスに進行するが、文字の場合、所定
のn文字が入力文字バッファ2にバッファされる迄は次
のプロセスに進行しない。なお、それらの判断は、仮名
漢字変換制御部3で行なう。「けんぎょうのうか…」と
いう具合いにn文字(たとえばn=6)が入力文字バッ
ファに蓄積されると、「け」、「けん」、「けんぎょ
う」、「けんぎょうの」の種類の文字列の組である単語
辞書検索用の仮名文字列が仮名漢字変換制御部3で作成
される(S23)。仮名漢字変換制御部3はそれらの検索用
仮名文字列のよみに従って単語辞書記憶装置4を検索し
(S24)、「毛」、「気」、「券」、「県」…「兼業」、
「検校」等の表記文字の単語を候補語としてあげる。そ
の時、第2図に示されているそれらの各単語の品詞、頻
度ランク、出力順位、ポインタ等のデータを取出す。
Next, "Kenkyo no Ka ..." is successively input from the keyboard 1 and is temporarily stored in the input character buffer 2. At this time, every time one character is input from the keyboard 1 (S
20), it is judged whether it is a symbol or a character (S21), and if it is a character,
It is judged whether or not n characters have been accumulated (S22). In the case of a symbol, it proceeds to the next process, but in the case of a character, it does not proceed to the next process until a predetermined n characters are buffered in the input character buffer 2. The kana-kanji conversion control unit 3 makes these determinations. When n characters (for example, n = 6) are accumulated in the input character buffer, such as "Kenkyo no ...", "Ken", "Ken", "Kenkyo", and "Kenkyono" A kana character string for word dictionary search, which is a set of character strings of different types, is created by the kana-kanji conversion control unit 3 (S23). The kana-kanji conversion control unit 3 searches the word dictionary storage device 4 according to the reading of those kana character strings for search.
(S24), "hair", "ki", "ticket", "prefecture" ... "side job",
Candidate words are words with written characters such as "school". At that time, the data such as the part of speech, the frequency rank, the output rank, and the pointer of each word shown in FIG. 2 is taken out.

次に、複合語辞書記憶装置5のアドレスに対応するポイ
ンタがあるかどうかの判定を仮名漢字変換制御部3は行
なう(S25)。たとえば、表記「検校」の単語のポインタ
は65535番で、これは16進表示でFFFFに相当し、
この場合、複合語辞書記憶装置5のアドレスはないので
複合語辞書記憶装置5を検索する必要はなく評価処理に
進む。
Next, the kana-kanji conversion control unit 3 determines whether or not there is a pointer corresponding to the address of the compound word dictionary storage device 5 (S25). For example, the pointer of the word "inspection" is 65535, which is equivalent to FFFF in hexadecimal notation.
In this case, since there is no address of the compound word dictionary storage device 5, there is no need to search the compound word dictionary storage device 5 and the process proceeds to the evaluation process.

表記「兼業」の単語のポインタは7533番で、これは
65535番とは異なるので、複合語があり、仮名漢字
変換制御部3は複合語辞書記憶装置5のそのアドレスで
検索する(S26)。複合語辞書記憶装置5のアドレス75
33番の記憶位置には第3図(a)に示してあるようにア
ドレス組合せによる複合語が格納されている。
The pointer of the word of the notation "part-time job" is number 7533, which is different from number 65535, so there is a compound word, and the kana-kanji conversion control unit 3 searches for that address in the compound word dictionary storage device 5 (S26). Address 75 of the compound word storage device 5
In the memory location No. 33, as shown in FIG. 3 (a), a compound word by address combination is stored.

1つは11379−17634で、このアドレスで単語
辞書記憶装置4を検索すると「兼業−者」となり、その
読みは、「けんぎょうしゃ」となる。その読みと入力文
字バッファ2内の仮名文字列の「けんぎょうのう」とを
仮名漢字変換制御部3で照合すると明らかに不一致とな
る。
One is 11379-17634, and when the word dictionary storage device 4 is searched by this address, it becomes "part-time worker", and its reading becomes "kengyosha". When the reading and the kana character string "kengyonou" in the input character buffer 2 are collated by the kana-kanji conversion control unit 3, there is a clear discrepancy.

したがって、次のアドレス組合せ11379−2311
5をもとにして単語辞書記憶装置4を検索すると「兼業
−農家」となり、その読みは「けんぎょうのうか」とな
る。その読みと入力文字バッファ内の仮名文字列の「け
んぎょうのうか」とを仮名漢字変換制御部3で照合する
と明らかに一致する。
Therefore, the next address combination 11379-2311
When the word dictionary storage device 4 is searched based on 5, it becomes "part-time-farmer", and its reading becomes "kengyonoka". When the reading and the kana character string “kengyo no uka” in the input character buffer are collated by the kana-kanji conversion control unit 3, they clearly match.

これは一致するので、その単語の「農家」の品詞である
64(一般名詞)と頻度ランクである4と出力順位1と
ポインタ65535とが仮名漢字変換制御部3により単
語辞書記憶装置より取出されてバッファされる(S28)。
この複合語候補として取出された単語の「農家」は、次
のようにして新たに1つの単語、「兼業農家」として評
価器8で評価される。読み長は「兼業」である前単語と
「農家」である後続単語の両者の和で、8であり、頻度
ランクは両単語の内で低い方で「兼業」の頻度ランク3
である。「兼業農家」の複合語の前の単語「の」との接
続重みを検定する場合。仮名漢字変換制御器3は「の」
に接続する単語である「兼業」の品詞がサ変名詞である
ことがわかっているから、品詞活用表部6内の表にした
がって接続重み表の列(うけ)番号を取出して接続重み
表部7に転送し、同様に格助詞「の」の行(かかり)番
号をすでに接続重み表部7に転送してあるから、それら
の列及び行番号から接続重み表の接続重み(本実施例の
場合、2とする。)を仮名漢字変換制御器3は取出す。
Since these match, 64 (general noun) which is the part of speech of the word "farmer", 4 which is the frequency rank, output rank 1 and pointer 65535 are taken out from the word dictionary storage device by the kana-kanji conversion control unit 3. Buffered (S28).
The word “farmer” extracted as the compound word candidate is evaluated by the evaluator 8 as a new word, “part-time farmer” as follows. The reading length is 8 which is the sum of both the previous word that is "side job" and the subsequent word that is "farmer", and the frequency rank is the lower of both words, the frequency rank of "side job" is 3
Is. When testing the connection weight with the word "no" before the compound word "part-time farmer". Kana-Kanji conversion controller 3 is "no"
Since it is known that the part-of-speech of the word "side job" that is connected to the part-of-speech is a sahen noun, the column number of the connection weight table is extracted according to the table in the part-of-speech utilization table unit 6 and the connection weight table unit 7 To the connection weight table section 7 in the same way, since the row (barred) number of the case particle "no" has already been transferred to the connection weight table section 7, the connection weight of the connection weight table (in the case of this embodiment) , 2) is taken out by the kana-kanji conversion controller 3.

評価器8は評価式に従がって上記数値を用いて「兼業農
家」の評価値を演算した結果、31となった。他の単
語、たとえば表記「兼業」、「検校」についても上記と
同様に評価演算したところ、22、20となった(S2
9)。したがって、出力文字バッファ9には「兼業農
家」、「兼業」、「検校」の順位で蓄積される。
The evaluator 8 calculated 31 as a result of calculating the evaluation value of “part-time farmer” using the above-mentioned numerical values according to the evaluation formula. The other words, such as the notations "side job" and "school check", were evaluated and calculated in the same way as above, resulting in 22, 20 (S2
9). Therefore, the output character buffer 9 is accumulated in the order of “part-time farmer”, “part-time job”, and “school inspection”.

ここで、評価値の一番高い単語である「兼業農家」を表
示する語として仮に確定し、行(かかり)番号を指定す
る品詞は後続語の「農家」の一般名詞を用い、品詞活用
表部6の表から行(かかり)番号を設定する。ここで、
仮名漢字変換制御器3は最優先の単語の評価値、即ち、
候補語の中の最大の評価値を積算し、その積算値がある
閾値を越えたらトリガー信号を発し(S40)。このトリガ
ー信号を出力文字バッファ9が入力するとその積算した
評価値の単語迄の未確定単語列を確定して(S41)、それ
を文書ファイル部11は所定の記憶位置に記憶する。
Here, the word with the highest evaluation value is temporarily determined as the word that displays "part-time farmer", and the part of speech that specifies the line (hang) number uses the general noun of the subsequent word "farmer" and the part-of-speech utilization table. Set the row (take) number from the table of part 6. here,
The kana-kanji conversion controller 3 evaluates the highest priority word, that is,
The maximum evaluation value of the candidate words is integrated, and when the integrated value exceeds a certain threshold, a trigger signal is issued (S40). When this trigger signal is input to the output character buffer 9, the undetermined word string up to the word of the integrated evaluation value is confirmed (S41), and the document file unit 11 stores it in a predetermined storage position.

もし、トリガー信号が発生しなかった場合には、未だ未
確定のまま、次の仮名文字列の解析に移る。
If the trigger signal is not generated, the process proceeds to the analysis of the next kana character string while it is still undetermined.

入力文字バッファ2内の仮名文字列は「けんぎょうのう
か」を削除し「がいます。」となり、この場合、句読点
の記号があるのでn文字なくても被検索文字列作成に移
る(S23)。上記と同様に、「が」、「がい」、「がい
ま」、「がいます」の単語辞書検索用の文字列が仮名漢
字変換制御器3内で作成され、第6図のフローチャート
にしたがって、上記と同様に仮名漢字変換制御器3が単
語辞書記憶装置4を検索し、「が」の格助詞、「概」、
「害」、「該」等の単語を候補語としてあげる。
The kana character string in the input character buffer 2 is deleted by deleting "Kengyonoka", and in this case, since there is a punctuation mark, it proceeds to create the searched character string even if there are no n characters (S23). ). Similar to the above, the character strings for word dictionary search of "ga", "gai", "gaima", "gaima" are created in the Kana-Kanji conversion controller 3, and according to the flowchart of FIG. Similarly to the above, the kana-kanji conversion controller 3 searches the word dictionary storage device 4, and searches for the case particle "ga", "general",
Words such as "harm" and "the" are given as candidate words.

上記と同様の手順によって格助詞の「が」が取出され、
次に補助動詞の「い」が取出され、次に丁寧助動詞の
「ます」が取出されて解析され、句読点によりトリガー
信号が発せられ、それらの変換語が確定され、「最近は
多くの兼業農家がいます。」の仮名漢字変換された文が
文書ファイル11に蓄積される。それをプリントアウト
させる場合にはプリンタ12に転送すればよい。
In the same procedure as above, the case particle "ga" is taken out,
Next, the auxiliary verb "i" is taken out, then the polite auxiliary verb "masu" is taken out and analyzed, and a trigger signal is issued by the punctuation mark, and those conversion words are confirmed, "Recently, many part-time farmers The kana-kanji converted sentences of “gaisare.” Are accumulated in the document file 11. When printing it out, it may be transferred to the printer 12.

効果 本発明によれば同音異義語があっても、その後続単語が
複合語を形成するかどうかを検索することにより容易に
しても確実に同音異義語の判別ができ、その判別率が向
上した。
Effect According to the present invention, even if there is a homonym, the homonym can be surely discriminated even if it is easy by searching whether the succeeding word forms a compound word, and the discrimination rate is improved. .

【図面の簡単な説明】[Brief description of drawings]

第1図は本発明を日本語ワードプロセッサに適用した一
実施例の機能別ブロック全体図、 第2図は第1図の単語辞書記憶装置の内容の一部を模式
的に示した図、 第3図は第1図の複合語辞書記憶装置の内容の一部を模
式的に示した各方式の図、 第4図は第1図の品詞活用表部の内容の一部を模式的に
示した概略図、 第5図は第1図の接続重み表部の内容の一部を模式的に
示した概略図、 第6図は第1図の処理工程を示すフローチャートであ
る。 主要部分の符号の説明 3…仮名漢字変換制御部 4…単語辞書記憶装置 5…複合語辞書記憶装置 7…接続重み表部 8…評価器 9…出力文字バッファ
FIG. 1 is an overall functional block diagram of an embodiment in which the present invention is applied to a Japanese word processor, and FIG. 2 is a diagram schematically showing a part of the contents of the word dictionary storage device of FIG. FIG. 4 is a diagram of each system schematically showing a part of the contents of the compound word dictionary storage device of FIG. 1, and FIG. 4 is a diagram showing a part of the contents of the part-of-speech utilization table part of FIG. Schematic diagram, FIG. 5 is a schematic diagram schematically showing a part of the contents of the connection weight table portion of FIG. 1, and FIG. 6 is a flowchart showing the processing steps of FIG. Explanation of code of main part 3 ... Kana-Kanji conversion control unit 4 ... Word dictionary storage device 5 ... Compound word dictionary storage device 7 ... Connection weight table unit 8 ... Evaluator 9 ... Output character buffer

Claims (1)

【特許請求の範囲】[Claims] 【請求項1】仮名文字列を入力する入力装置と、表記用
の単語に関する情報が格納されている単語辞書記憶装置
と、前記単語辞書記憶装置内に格納されている単語の組
合わせが記憶されている複合語辞書記憶装置と、入力装
置により入力された仮名文字列を基に前記単語辞書記憶
装置および前記複合語辞書記憶装置を検索して前記仮名
文字列を漢字仮名混在文字列に変換する仮名漢字変換制
御部とを備え、 前記単語辞書記憶装置には、これに格納されている各単
語について、前記複合語辞書記憶装置を検索する必要の
有無を判別するための判別情報と、前記複合語辞書記憶
装置を検索する必要が有る場合に複合語辞書記憶装置を
検索するための検索情報とが、各単語と対応付けされて
保持され、 また、前記複合語辞書記憶装置には、前記単語の組合わ
せのうち、少なくとも後に位置する単語の情報を格納し
ている前記単語辞書記憶装置のアドレス情報が保持され
ており、 前記仮名漢字変換制御部は、前記入力装置により入力さ
れた仮名文字列に基づき単語辞書記憶装置を検索して同
音異義語である単語を抽出し、抽出した単語に対して前
記複合語辞書記憶装置を検索する必要があるか否かを前
記判別情報により判断し、前記複合語辞書記憶装置を検
索する必要があるときには、該単語に対応した検索情報
に従って前記複合語辞書記憶装置を検索し、複合語辞書
記憶装置に格納されている単語の組合わせのうち、少な
くとも後に位置する単語の情報を、前記複合語辞書記憶
装置に保持されているアドレス情報に従って単語辞書記
憶装置から求めて複合語を抽出し、抽出した複合語のよ
みと入力された仮名文字列のよみとの一致を検定して前
記同音異義語の判別を行なうことを特徴とする仮名漢字
変換方式。
1. An input device for inputting a kana character string, a word dictionary storage device storing information on words for writing, and a combination of words stored in the word dictionary storage device. The compound word dictionary storage device and the kana character string input by the input device are searched based on the word dictionary storage device and the compound word dictionary storage device to convert the kana character string into a kanji kana mixed character string. A kana-kanji conversion control unit, the word dictionary storage device, for each word stored therein, discrimination information for discriminating whether or not it is necessary to search the compound word dictionary storage device; Search information for searching the compound word dictionary storage device when it is necessary to search the word dictionary storage device is stored in association with each word, and the compound word dictionary storage device includes the single word Among the combinations, the address information of the word dictionary storage device that stores information of at least the word located after is stored, and the kana-kanji conversion control unit is a kana character string input by the input device. The word dictionary storage device is searched based on to extract a word that is a homonym, and it is determined whether or not it is necessary to search the compound word dictionary storage device for the extracted word based on the determination information. When it is necessary to search the compound word dictionary storage device, the compound word dictionary storage device is searched according to the search information corresponding to the word, and at least after the combination of words stored in the compound word dictionary storage device. The information of the positioned word is obtained from the word dictionary storage device according to the address information held in the compound word dictionary storage device, and the compound word is extracted. Mito kanji conversion method by assaying the match between readings of the input kana character string and performing discrimination of the homonym.
JP59195698A 1984-09-20 1984-09-20 Kana-Kanji conversion method Expired - Lifetime JPH0630100B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP59195698A JPH0630100B2 (en) 1984-09-20 1984-09-20 Kana-Kanji conversion method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP59195698A JPH0630100B2 (en) 1984-09-20 1984-09-20 Kana-Kanji conversion method

Publications (2)

Publication Number Publication Date
JPS6175467A JPS6175467A (en) 1986-04-17
JPH0630100B2 true JPH0630100B2 (en) 1994-04-20

Family

ID=16345504

Family Applications (1)

Application Number Title Priority Date Filing Date
JP59195698A Expired - Lifetime JPH0630100B2 (en) 1984-09-20 1984-09-20 Kana-Kanji conversion method

Country Status (1)

Country Link
JP (1) JPH0630100B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH041847A (en) * 1990-04-19 1992-01-07 Nec Corp Kana/kanji converter
US9079744B2 (en) 2009-08-26 2015-07-14 Horizon International Inc. Sheet folding apparatus

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS592125A (en) * 1982-06-29 1984-01-07 Comput Basic Mach Technol Res Assoc "kana" (japanese syllabary) "kanji" (chinese character) converting system

Also Published As

Publication number Publication date
JPS6175467A (en) 1986-04-17

Similar Documents

Publication Publication Date Title
EP0415000B1 (en) Method and apparatus for spelling error detection and correction
EP0423683B1 (en) Apparatus for automatically generating index
JPH0724055B2 (en) Word division processing method
Szanser Automatic error-correction in natural languages
JPH0630100B2 (en) Kana-Kanji conversion method
JPH08314950A (en) Retrieval method and device for text
EP0314503A2 (en) Dictionary structure for document processing apparatus
JPH0630101B2 (en) Kana-Kanji conversion method
Szanser Automatic error-correction in natural languages
JPS61184674A (en) Kana/kanji conversion system
JP3847801B2 (en) Character processing apparatus and processing method thereof
JP2698192B2 (en) Second language search method in electronic dictionary
JPH0113145B2 (en)
JPH0380363A (en) Document processor
JP2537991B2 (en) Character input device and method
JPH0668160A (en) Information retrieval system
JPH05135096A (en) Morpheme analyzing system
JPH05324610A (en) Address notation chinese character inputting device
JPH0547859B2 (en)
JPH01205377A (en) Japanese language document analyzing device
JPS62271172A (en) Kana/kanji conversion processing system
JPS6148063A (en) Kana/kanji converting system
JPH04279971A (en) Japanise sentence proecessor
JPH0855117A (en) Character processor
JPH07105225A (en) Dictionary retrieval device

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term