JP3524189B2 - Character processor - Google Patents

Character processor

Info

Publication number
JP3524189B2
JP3524189B2 JP01401395A JP1401395A JP3524189B2 JP 3524189 B2 JP3524189 B2 JP 3524189B2 JP 01401395 A JP01401395 A JP 01401395A JP 1401395 A JP1401395 A JP 1401395A JP 3524189 B2 JP3524189 B2 JP 3524189B2
Authority
JP
Japan
Prior art keywords
adjunct
word
stored
dictionary
kana
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP01401395A
Other languages
Japanese (ja)
Other versions
JPH08202700A (en
Inventor
仁志 緩利
聖範 若井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP01401395A priority Critical patent/JP3524189B2/en
Publication of JPH08202700A publication Critical patent/JPH08202700A/en
Application granted granted Critical
Publication of JP3524189B2 publication Critical patent/JP3524189B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

【発明の詳細な説明】Detailed Description of the Invention

【0001】[0001]

【産業上の利用分野】本発明は、仮名漢字変換により漢
字仮名混じり文を出力する文字処理装置に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a character processing device for outputting a kanji / kana mixed sentence by kana / kanji conversion.

【0002】[0002]

【従来の技術】仮名漢字変換は、各種辞書を参照するこ
とにより、入力された読み列を漢字に変換するものであ
る。自立語辞書においては、各単語に対して名詞、サ変
名詞、副詞、動詞、形容詞、形容動詞などの品詞情報が
記述されており、付属語辞書においては、その付属語の
文法情報が記述されている。また、付属語同士の連接
や、自立語と付属語の連接の、可能/不可能を記述した
連接判定テーブルが準備されていて、かな漢字変換は、
各種辞書やテーブルを参照しつつ、入力された読み列を
漢字に変換していく。
2. Description of the Related Art Kana-Kanji conversion is to convert an input reading string into Kanji by referring to various dictionaries. In the independent word dictionary, part-of-speech information such as nouns, sahen nouns, adverbs, verbs, adjectives, and adjective verbs is described for each word.In the adjunct dictionary, grammatical information about the adjunct is described. There is. In addition, there is a concatenation judgment table that describes whether or not adjunct words can be connected or independent words and adjunct words can be connected.
While referring to various dictionaries and tables, the input reading string is converted into kanji.

【0003】例えば、「しろにとのがいる」という入力
に対しては、「市」「白」「城」「白に」「城に」「白
にと」「城にと」「白にとの」「城にとの」「白にとの
が」「城にとのが」、「炉」「露」「炉に」…、「二」
「似」「荷」「煮」「二と」…、「都」「戸」「都の」
「殿」「戸の」「都のが」「殿が」…、「いる」「居
る」「要る」「煎る」…等の文節の候補を作成し、これ
らを組み合わせた結果、一般には文節数が最小となる組
み合わせが優先され、「白にとのが/いる」「城にとの
が/いる」といった、2文節で構成される変換結果が優
先され、「城に/殿が/いる」といった変換結果は、3
文節で構成されるため、第1候補として、出力されるこ
とがなかった。
[0003] For example, in response to the input "Shiro ni to ga ga", "city""white""castle""white""castle""whiteto""castleto""white""Tono","To the castle", "To the white", "To the castle", "Furnace", "Dew", "In the furnace" ..., "Second"
"Similar", "Package", "Boiled", "Nito" ..., "Miyako", "House", "Miyanono"
As a result of creating phrase candidates such as "don", "tono", "tono", "don", "is", "is", "necessary", "roasting", etc. The combination with the smallest number is prioritized, and the conversion result composed of two phrases such as "White / Toga / Iru" and "Castle / Toga / Iru" is given priority, The conversion result is 3
Since it is composed of clauses, it was not output as the first candidate.

【0004】[0004]

【発明が解決しようとする課題】しかしながら、そもそ
も上記の例においては、「白にとのが」「城にとのが」
といった文節が生成されることに問題がある。
However, in the above example, "white nito no ga" and "castle ni to no ga" were originally used.
There is a problem that such clauses are generated.

【0005】従来、一般には、名詞+「に」、「に」+
「と」、「と」+「の」、「の」+「が」が、それぞれ
連接可能であると定義されている。「白に」「私にと」
「彼との」「彼女のが」という文節を考えて見ると、確
かに、それぞれを連接可能とすることは正しい。しかし
ながら、この方法では、名詞+「に」+「と」+
「の」、さらには、名詞+「に」+「と」+「の」+
「が」が連接可能となってしまう。
Conventionally, in general, noun + "ni", "ni" +
It is defined that “to”, “to” + “no”, and “no” + “ga” can be respectively connected. "To white""Tome"
Considering the phrases "with him" and "with her", it is certainly correct to be able to connect each. However, with this method, noun + "ni" + "to" +
“No”, moreover, noun + “ni” + “to” + “no” +
"Ga" can be connected.

【0006】要するに、従来は、3語以上の連接関係に
ついては、連接を禁止する定義がなされておらず、連接
を禁止することが不可能な構成であり、無意味な文節を
生成していた。
[0006] In short, in the past, with respect to the connection relation of three or more words, the definition that prohibits the connection is not made, and it is impossible to prohibit the connection, and a meaningless clause is generated. .

【0007】(課題1)そこで、本発明は、上述した従
来の問題を解決し、付属語の連接関係を付属語列として
記述し、付属語列を付属部辞書に格納し、付属語同士の
連接判定テーブルは用いない構成とすることによって、
無意味な付属語列、さらには無意味な文節を生成しない
仮名漢字変換を提供することを目的とする。
(Problem 1) Therefore, the present invention solves the above-mentioned conventional problem, describes the concatenation relationship of adjunct words as an adjunct word string, stores the adjunct word string in an adjunct dictionary, and stores adjunct words between adjunct words. By not using the connection determination table,
It is an object of the present invention to provide a kana-kanji conversion that does not generate meaningless attached word strings and meaningless clauses.

【0008】(課題2)さらに、本発明は(課題1)に
おいて付属語列を付属部辞書に格納したのと同様に、付
属語と自立語が連接した状態で構成される言い回しを、
1つの付属部として付属語辞書に格納することによっ
て、優先して仮名漢字変換される付属部を格納すること
を目的とする。
(Problem 2) Further, according to the present invention, as in the case of (Problem 1), in which an adjunct word string is stored in an adjunct dictionary, a phrase composed of an adjunct word and an independent word is connected,
By storing in the adjunct word dictionary as one adjunct, the adjunct to be converted into kana-kanji is preferentially stored.

【0009】(課題3)さらに、本発明は(課題1)お
よび(課題2)において、付属部辞書に格納した付属語
列や言い回しに、優先度情報を付加することにより、付
属語列として使用された時の頻度や、言い回しとしての
頻度を考慮した、精度の高い仮名漢字変換を提供するこ
とを目的とする。
(Problem 3) Further, according to the present invention, in (Problem 1) and (Problem 2), by adding priority information to an adjunct word string or a phrase stored in an adjunct dictionary, it is used as an adjunct word string. It is an object of the present invention to provide a highly accurate kana-kanji conversion that takes into account the frequency of occurrences and the frequency of wording.

【0010】[0010]

【課題を解決するための手段】上記課題を解決するため
に、本発明の文字処理装置は、仮名文字列を入力するた
めの、入力手段と、単語の読みと、表記および品詞など
の文法情報とを対応づけて記憶した単語辞書手段と、助
詞や助動詞などの付属語を、その読みと表示および文法
情報とを対応づけて記憶した付属部辞書手段と、前記入
力手段により入力された仮名文字列を、前記単語辞書手
段および前記付属部辞書手段を参照して、対応する表記
に変換するかな漢字変換手段とを有し、前記付属部辞書
手段に、単一の付属語とともに、連接して使用可能な付
属語列を1つの付属部として格納し、前記仮名漢字変換
手段による変換において、付属部同士を非連接とするこ
とを特徴とする。
In order to solve the above-mentioned problems, the character processing device of the present invention has an input means for inputting a kana character string, word reading, and grammatical information such as notation and part-of-speech. And a word dictionary means that stores in association with each other, and an adjunct dictionary means that stores an accessory word such as a particle or auxiliary verb in association with its reading, display, and grammatical information, and a kana character input by the input means. A kana-kanji conversion means for converting a string into a corresponding notation by referring to the word dictionary means and the auxiliary dictionary means, and using the auxiliary dictionary means together with a single auxiliary word A possible adjunct word string is stored as one adjunct, and the adjuncts are not connected in the conversion by the kana-kanji conversion means.

【0011】さらに、本発明は上記文字処理装置におい
て、さらに、前記付属部辞書手段に、付属語および付属
語列とともに、付属語と自立語との連接により構成され
る言い回しを1つの付属部として格納することを特徴と
する。
Further, according to the present invention, in the above character processing device, the adjunct dictionary means is provided with an adjunct word and an adjunct word string, and a phrase formed by concatenating an adjunct word and an independent word as one adjunct part. It is characterized by storing.

【0012】さらに本発明は上述した文字処理装置にお
いて、さらに、前記付属部辞書手段に格納される各付属
部には、優先度情報を対応づけて記憶することを特徴と
する。
Further, the present invention is characterized in that, in the character processing device described above, priority information is stored in association with each of the attached parts stored in the attached part dictionary means.

【0013】[0013]

【作用】本発明においては、付属部辞書手段に連接可能
な付属語列を1つの付属部として格納し、付属部同士は
非連接とすることで、無意味な付属語列が生成されるこ
とを防止することができる。
In the present invention, meaningless adjunct word strings are generated by storing adjunct word strings that can be connected to the adjunct part dictionary means as one adjunct part and making the adjunct parts non-adjoining. Can be prevented.

【0014】さらに、本発明では、付属部辞書手段に、
付属語と自立語との連接で構成される言い回しを1つの
付属部として格納することにより、当該言い回しが優先
して変換される。
Further, according to the present invention, the appendix dictionary means includes:
By storing a phrase composed of a concatenation of an adjunct and an independent word as one adjunct part, the phrase is preferentially converted.

【0015】さらに、本発明では、上述した構成におい
て、付属部辞書手段に格納した付属語列や言い回しに、
優先度情報を付加して格納することにより、優先度の高
い付属語列や言い回しが優先して変換される。
Further, according to the present invention, in the above-mentioned structure, the attached word string or the phrase stored in the attached dictionary means is
By adding and storing priority information, a high priority auxiliary word sequence or a wording is preferentially converted.

【0016】[0016]

【実施例】以下図面を参照しながら本発明を詳細に説明
する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS The present invention will be described in detail below with reference to the drawings.

【0017】図1は本発明の全体構成の一例を示すブロ
ック図である。
FIG. 1 is a block diagram showing an example of the overall configuration of the present invention.

【0018】図示の構成において、CPUは、マイクロ
プロセッサであり、文字処理のための演算、論理判断等
を行ない、アドレスバスAB、コントロールバスCB、
データバスDBを介して、それらのバスに接続された各
構成要素を制御する。
In the configuration shown in the figure, the CPU is a microprocessor, which performs arithmetic operations for character processing, logical judgments, etc., an address bus AB, a control bus CB,
The respective components connected to those buses are controlled via the data bus DB.

【0019】アドレスバスABはマイクロプロセッサC
PUの制御の対象とする構成要素を指示するアドレス信
号を転送する。コントロールバスCBはマイクロプロセ
ッサCPUの制御の対象とする各構成要素のコントロー
ル信号を転送して印加する。データバスDBは各構成機
器相互間のデータ転送を行なう。
The address bus AB is a microprocessor C
An address signal for instructing a component to be controlled by the PU is transferred. The control bus CB transfers and applies a control signal of each constituent element to be controlled by the microprocessor CPU. The data bus DB transfers data between the respective constituent devices.

【0020】次にROMは、読出し専用の固定メモリで
ある。ROMに設けられているPAは、図8〜図11に
つき後述するマイクロプロセッサCPUによる制御の手
順を記憶させたプログラムエリアである。
The ROM is a read-only fixed memory. PA provided in the ROM is a program area in which the procedure of control by the microprocessor CPU described later with reference to FIGS. 8 to 11 is stored.

【0021】また、RAMは、1ワード16ビットの構
成の書き込み可能のランダムアクセスメモリであって、
各構成要素からの各種データの一時記憶に用いる。RA
Mには以下に説明するJDIC、FDIC、CTBL、
IBUF、OBUF、BTBLが格納されている。
The RAM is a writable random access memory having a structure of 16 bits per word,
Used for temporary storage of various data from each component. RA
M includes JDIC, FDIC, CTBL, and
IBUF, OBUF, and BTBL are stored.

【0022】JDICは自立部辞書で、かな漢字変換用
の自立部を格納したものであり、詳細は図2を用いて後
述する。
JDIC is a self-supporting part dictionary, which stores a self-supporting part for kana-kanji conversion, and details will be described later with reference to FIG.

【0023】FDICは付属部辞書で、かな漢字変換用
の付属部を格納したものであり、詳細は図3を用いて後
述する。
The FDIC is an adjunct dictionary, which stores an adjunct for kana-kanji conversion, the details of which will be described later with reference to FIG.

【0024】CTBLは連接判定テーブルで、自立部と
付属部の連接可否の情報を格納したものであり、詳細は
図4を用いて後述する。
CTBL is a connection determination table, which stores information on whether or not the self-supporting part and the auxiliary part are connected, and details thereof will be described later with reference to FIG.

【0025】IBUFは入力バッファで、キー入力され
たキーデータを記憶する入力バッファであり、詳細は図
5(a)を用いて後述する。
IBUF is an input buffer, which is an input buffer for storing key data input by a key, and details will be described later with reference to FIG.

【0026】OBUFは出力バッファで、かな漢字変換
された結果を一時的に記憶するバッファであり、詳細は
図5(b)を用いて後述する。
OBUF is an output buffer, which is a buffer for temporarily storing the result of Kana-Kanji conversion, and details will be described later with reference to FIG.

【0027】BTBLは文節候補テーブルで、入力され
た仮名文字列をかな漢字変換して、出力を決定する段階
において使用されるバッファであり、かな漢字変換の途
中結果を格納する。詳細は図6及び図7を用いて後述す
る。
BTBL is a phrase candidate table, which is a buffer used at the stage of converting the inputted kana character string into kana-kanji characters and determining the output, and stores the intermediate result of kana-kanji conversion. Details will be described later with reference to FIGS. 6 and 7.

【0028】KBはキーボードであって、アルファベッ
トキー、ひらがなキー、カタカナキー等の文字記号入力
キー、及び、カーソル移動を指示するカーソル移動キー
や各種のファンクションキーを備えている。
The KB is a keyboard, which is provided with a character / symbol input key such as an alphabet key, a hiragana key, a katakana key, a cursor movement key for instructing cursor movement, and various function keys.

【0029】DISKは文書データ等を記憶するための
外部メモリである。文書データ等は必要に応じて保管さ
れ、また、保管されたデータはキーボードの指示によ
り、必要な時呼び出される。
DISK is an external memory for storing document data and the like. Document data and the like are stored as needed, and the stored data is recalled when necessary by an instruction from the keyboard.

【0030】CRはカーソルレジスタである。CPUに
より、カーソルレジスタの内容を読み書きできる。後述
するCRTコントローラCRTCは、ここに蓄えられた
アドレスに対応する表示装置CRT上の位置にカーソル
を表示する。
CR is a cursor register. The CPU can read and write the contents of the cursor register. The CRT controller CRTC described later displays a cursor at a position on the display device CRT corresponding to the address stored here.

【0031】DBUFは表示用バッファメモリで、表示
すべきデータのパターンを蓄える。
DBUF is a display buffer memory for storing a pattern of data to be displayed.

【0032】CRTCはCRTコントローラで、カーソ
ルレジスタCR及びバッファDBUFに蓄えられた内容
を表示器CRTに表示する役割を担う。
The CRTC is a CRT controller, and has a role of displaying the contents stored in the cursor register CR and the buffer DBUF on the display CRT.

【0033】またCRTは陰極線管等を用いた表示装置
であり、その表示装置CRTにおけるドット構成の表示
パターンおよびカーソルの表示をCRTコントローラで
制御する。
The CRT is a display device using a cathode ray tube or the like, and the display pattern of the dot configuration and the display of the cursor on the display device CRT are controlled by the CRT controller.

【0034】さらに、CGはキャラクタジェネレータで
あって、表示装置CRTに表示する文字、記号のパター
ンを記憶するものである。
Further, CG is a character generator, which stores a pattern of characters and symbols to be displayed on the display device CRT.

【0035】かかる各構成要素からなる本発明文字処理
装置においては、キーボードKBからの各種の入力に応
じて作動するものであって、キーボードKBからの入力
が供給されると、まず、インタラプト信号がマイクロプ
ロセッサCPUに送られ、そのマイクロプロセッサCP
UがROM内に記憶してある各種の制御信号を読出し、
それらの制御信号に従って、各種の制御が行なわれる。
The character processing apparatus of the present invention comprising the above-described components operates in response to various inputs from the keyboard KB, and when an input from the keyboard KB is supplied, an interrupt signal is first sent. Sent to the microprocessor CPU and its microprocessor CP
U reads out various control signals stored in the ROM,
Various controls are performed in accordance with those control signals.

【0036】図2は本発明における自立部辞書JDIC
に格納される自立部辞書データの構成を示す図である。
FIG. 2 shows the independent dictionary JDIC according to the present invention.
It is a figure which shows the structure of the independent part dictionary data stored in.

【0037】読み、表記、品詞、優先度の各フィールド
から構成される。
It is composed of reading, notation, part of speech, and priority fields.

【0038】読みには単語の読み、表記には単語の表
記、品詞には単語の品詞が格納される。優先度は、頻度
情報などを考慮して与えられる、当該単語が優先的に使
用される度合いである。優先度=5は、普通に優先され
るという意味であり、5以上だと普通よりさらに優先さ
れ、5より小さい単語は、普通の単語より優先されない
ことを意味する。
The word reading is stored in the reading, the word notation is stored in the notation, and the part of speech of the word is stored in the part of speech. The priority is a degree of preferential use of the word, which is given in consideration of frequency information and the like. Priority = 5 means that normal priority is given, and if it is 5 or higher, it has higher priority than normal, and if it is lower than 5, it means that it has no priority over normal words.

【0039】図3は本発明における付属部辞書FDIC
に格納される付属部辞書データの構成を示す図である。
FIG. 3 shows the accessory dictionary FDIC according to the present invention.
It is a figure which shows the structure of the auxiliary part dictionary data stored in.

【0040】読み、表記、文法情報、優先度の各フィー
ルドから構成される。
It consists of reading, notation, grammar information, and priority fields.

【0041】読みには付属部の読み、表記には付属部の
表記が格納される。文法情報には付属部の文法情報が格
納され、後述する連接判定テーブルへリンクしている。
優先度は、頻度情報などを考慮して与えられる、当該付
属語が優先的に使用される度合いである。優先度=5
は、普通に優先されるという意味であり、5以上だと普
通よりさらに優先され、5より小さい単語は、普通の付
属語より優先されないことを意味する。
The reading of the attached part is stored in the reading, and the notation of the attached part is stored in the notation. The grammatical information stores the grammatical information of the attached part, which is linked to the connection determination table described later.
The priority is a degree of preferential use of the attached word, which is given in consideration of frequency information and the like. Priority = 5
Means that it is normally prioritized, that if it is 5 or more, it has higher priority than ordinary, and if it is less than 5, it does not have priority over ordinary adjuncts.

【0042】図4は本発明における連接判定テーブルC
TBLの構成を示す図である。品詞と、付属部の文法情
報を軸とする表の構造をしている。表内の数字は、連接
強度であり、連接の強さを示すものである。5は普通の
連接強度であり、5より大きい場合は、強い連接を示
し、5より小さい場合は、弱い連接であることを示して
いる。また、連接強度が0というのは、連接しないこと
を意味している。例えば、「名詞」と「助詞−と」は、
連接強度5なので、連接の強さは普通である。また、
「動詞終止形」と「助動詞−です」は、連接強度0なの
で、連接しない。すなわち、「動詞終止形」+「助動詞
−です」といった文節は成り立たないということであ
る。
FIG. 4 is a connection determination table C according to the present invention.
It is a figure which shows the structure of TBL. It has a table structure centered on the part of speech and the grammatical information of the appendix. The numbers in the table are the connection strengths, and indicate the connection strengths. 5 is a normal joint strength, and when it is larger than 5, it is a strong joint, and when it is smaller than 5, it is a weak joint. Further, the connection strength of 0 means that the connection is not made. For example, "noun" and "particle-to"
Since the connection strength is 5, the connection strength is normal. Also,
“Verb ending form” and “auxiliary verb-is” do not connect because the connection strength is 0. In other words, a phrase such as "verb final form" + "auxiliary verb-is" does not hold.

【0043】図5は入・出力バッファの構成を示し、
(a)は入力バッファIBUF、(b)は出力バッファ
OBUFの構成を示した図である。IBUF、OBUF
ともに同じ構成である。最初の2バイトは各バッファの
サイズ情報であり、バッファに格納されている文字数が
格納されている。各文字は1文字2バイトで構成され、
JIS X0208コード等で格納される。
FIG. 5 shows the structure of the input / output buffer.
(A) is a diagram showing a configuration of an input buffer IBUF, and (b) is a diagram showing a configuration of an output buffer OBUF. IBUF, OBUF
Both have the same configuration. The first 2 bytes are size information of each buffer, and the number of characters stored in the buffer is stored. Each character consists of 2 bytes per character,
It is stored as a JIS X0208 code or the like.

【0044】図6は文節候補テーブルBTBLの構成を
示した図である。BTBLは、かな漢字変換の途中結果
を格納するものであり、入力バッファに格納された仮名
文字列を、形態素解析を行い、考えられる解析パターン
をすべて格納する。BTBLはツリー構造をしており、
ノードには文節を格納するものとする。同じ形態の文節
は1つのノードにまとめて格納されることもある。例で
は、「しろにとのがいる」を解析した結果であり、「城
にと/野が/いる」を初め、「白/煮/都のが/要る」
といった、数多くの解析パターンが存在している。
FIG. 6 is a diagram showing the structure of the phrase candidate table BTBL. The BTBL stores an intermediate result of kana-kanji conversion, performs morphological analysis on the kana character string stored in the input buffer, and stores all possible analysis patterns. BTBL has a tree structure,
The clause shall be stored in the node. The clauses of the same form may be stored together in one node. In the example, it is the result of analyzing "Shiro ni Tono ga Iru", including "Castle Nito / No ga / Iru" and "White / boiled / Miyakono ga / I need"
There are many analysis patterns such as.

【0045】図7は図6と同様に、文節候補テーブルB
TBLの構成を示した図である。当該例では、入力バッ
ファに格納された文字列が「みようとつとめる」であっ
た場合の例である。
Similar to FIG. 6, FIG. 7 shows the phrase candidate table B.
It is a figure showing composition of TBL. In this example, the character string stored in the input buffer is “Mito to Tamotsu”.

【0046】上述の実施例のプログラムエリアPAに格
納された手順の動作をフローに従って説明する。
The operation of the procedure stored in the program area PA of the above embodiment will be described according to the flow.

【0047】図8は本発明文字処理装置の動作を示すフ
ローチャートである。
FIG. 8 is a flow chart showing the operation of the character processing device of the present invention.

【0048】ステップ8−1は、本発明の文字処理装置
のいろいろな初期設定を行う処理であり、同種の文字処
理装置において一般に行われている処理である。処理を
終えると、ステップ8−2へ進む。
Step 8-1 is a process for performing various initial settings of the character processing device of the present invention, which is a process generally performed in a character processing device of the same type. When the processing is completed, the process proceeds to step 8-2.

【0049】ステップ8−2はキーボードからのデータ
を取り込む処理である。
Step 8-2 is a process for fetching data from the keyboard.

【0050】ステップ8−3は取り込まれたキーの種別
を判定し、各キーの処理ルーチンに分岐する。
In step 8-3, the type of the fetched key is judged, and the process branches to each key processing routine.

【0051】読みキーが入力された時はステップ8−4
に分岐する。
When the reading key is input, step 8-4
Branch to.

【0052】変換キーが入力された時はステップ8−5
に分岐し、図9にて後述する変換処理を行う。
When the conversion key is input, step 8-5
And the conversion process described later with reference to FIG. 9 is performed.

【0053】その他のキーが入力されたときには、ステ
ップ8−6に分岐し、文字の入力や、カーソル移動、挿
入、削除等の通常の文字処理装置において行なわれるそ
の他の処理が行なわれる。これらの処理は同種の文字処
理装置において、一般に行われている処理であり、公知
であるので特に記述しない。
When any other key is input, the process branches to step 8-6 to perform other processes such as character input, cursor movement, insertion, deletion, etc. which are carried out in a normal character processing apparatus. These processes are processes that are generally performed in the same type of character processing device and are well known, and therefore will not be described.

【0054】ステップ8−4は、読み入力処理であり、
かな漢字変換の読みとなるキーが入力されると、入力バ
ッファIBUFに文字を格納する処理である。
Step 8-4 is a reading input process,
This is a process of storing a character in the input buffer IBUF when a key for reading kana-kanji conversion is input.

【0055】ステップ8−4、ステップ8−5、ステッ
プ8−6のそれぞれの処理を終ると、ステップ8−2へ
進み、再びキー入力待ちとなる。
When the processing of step 8-4, step 8-5, and step 8-6 is completed, the process proceeds to step 8-2 and waits for key input again.

【0056】図9はステップ8−5の「変換処理」を詳
細化したフローチャートである。
FIG. 9 is a detailed flowchart of the "conversion process" in step 8-5.

【0057】ステップ9−1は、文節候補テーブル作成
処理であり、入力バッファIBUFに格納される読みを
もとに、図6あるいは図7で示したような文節候補テー
ブルBTBLを作成する。作成処理の詳細は、図10で
説明する。
Step 9-1 is a phrase candidate table creating process, which creates the phrase candidate table BTBL as shown in FIG. 6 or 7 based on the reading stored in the input buffer IBUF. Details of the creation process will be described with reference to FIG.

【0058】ステップ9−2は、第1候補決定処理であ
り、図6あるいは図7で示したような文節候補テーブル
BTBLに格納された解析結果のなかから、もっとも優
先して変換させたい候補を決定する。決定の方法として
は、さまざまな方法が考えられるが、ここでは、文節数
最小法と、自立語の優先度および、付属部の優先度を組
み合わせて決定するものとする。図6の場合、まず、文
節数が最小となるような候補に絞る。そうすると、3文
節に構成される、 「{城にと,白にと}+{野が}+{いる,要る}」、
「{城に,白に}+{殿が,都のが}+{いる,要
る}」、「{城,白}+{荷とのが,煮とのが}+{い
る,要る}」の候補に絞られる。
Step 9-2 is the first candidate determination process, which selects the candidate to be converted with the highest priority from the analysis results stored in the phrase candidate table BTBL as shown in FIG. 6 or 7. decide. Although various methods are conceivable as the determination method, here, it is assumed that the minimum clause number method, the priority of the independent word, and the priority of the attached part are combined. In the case of FIG. 6, first, the candidates are selected so as to minimize the number of phrases. Then, "{to the castle, to the white} + {field} + {is there, I need it}" composed of 3 phrases,
"{To the castle, to the white} + {Tohru, tonoha} + {I need, need}", "{Castle, white} + {Load and tongue, boiled tongue} + {I want, to need }] ”.

【0059】さらに、各候補から、自立部の優先度の大
きいものを採ると、「城」>「白」、「いる」>「要
る」、「殿」=「都」、「荷」>「煮」であるから、 「城にと+野が+いる」、「城に+{殿が,都のが}+
いる」、「城+荷とのが+いる」に絞ることが出来る。
Furthermore, from the candidates, when the one with a high priority of the independent section is selected, "castle">"white","is">"necessary","don" = "city", "load"> Because it is "boiled", "there are + fields in the castle," and "in the castle, the {noden, the capital}} +
It can be narrowed down to "I am there" and "I am with the castle + load".

【0060】また、更に、付属部の優先度の大きいもの
を採ると、「が」>「のが」であるから、 「城にと+野が+いる」、「城に+殿が+いる」、「城
+荷とのが+いる」に絞られる。
Furthermore, when the priority of the attached part is high, since "ga">"noga","there is + the field + in the castle" and "the + hall is + in the castle". , "" Castle + load + there are + ".

【0061】また、更に、各文節の優先度を、(自立部
の優先度+付属部の優先度)/2(ただし、付属部が存
在しない文節は自立部の優先度が文節の優先度とな
る。)で計算する。上記の3つの文の、文節の優先度の
合計は、それぞれ、 「城にと+野が+いる」→5+6+5=16、 「城に+殿が+いる」→6+6+5=17、 「城+荷とのが+いる」→5+4+5=14 となり、「城に+殿が+いる」を第1候補に決定する。
Furthermore, the priority of each bunsetsu is (priority of independent section + priority of ancillary section) / 2 (however, in the case of a bunsetsu with no ancillary section, the priority of the independent section is the priority of a bunsetsu. Will be calculated. The total priority of the clauses in the above three sentences is “++ in the castle +” → 5 + 6 + 5 = 16, “++ in the castle +” → 6 + 6 + 5 = 17, “castle + load” “Tono + is present” → 5 + 4 + 5 = 14, and “+ there is + in the castle” is decided as the first candidate.

【0062】図7の例の場合、文節数が最小となる候補
に絞った時点で、「見ようと努める」を第1候補に決定
することができる。
In the case of the example in FIG. 7, when the candidates having the minimum number of clauses are narrowed down, "I try to see" can be determined as the first candidate.

【0063】ステップ9−3は、変換結果出力処理であ
る。ステップ9−2において決定した第1候補を出力バ
ッファOBUFに格納する。
Step 9-3 is a conversion result output process. The first candidate determined in step 9-2 is stored in the output buffer OBUF.

【0064】ステップ9−4は、入力バッファ消去処理
である。入力バッファIBUFの内容を消去し、次回の
読みキー入力のために備える。処理を終えると、リター
ンする。
Step 9-4 is an input buffer erasing process. The contents of the input buffer IBUF are erased to prepare for the next read key input. When the processing is completed, it returns.

【0065】図10はステップ9−1の「文節候補テー
ブル作成処理」を詳細化したフローチャートである。
FIG. 10 is a detailed flowchart of the "clause candidate table creation process" in step 9-1.

【0066】ステップ10−1は、カウンタiを初期化
する処理である。カウンタiは、入力バッファIBUF
の読み文字列のi番目の文字を指すカウンタであり、最
初は、1文字目を指すために、1をセットする。
Step 10-1 is a process for initializing the counter i. The counter i is the input buffer IBUF
Is a counter that points to the i-th character of the reading character string, and at the beginning, 1 is set to point to the first character.

【0067】ステップ10−2は、文節解析処理であ
る。入力バッファIBUFのi番目の読みを先頭読みと
して、それ以降の読みから、文節を解析して、文節候補
テーブルを作成する。詳細は、図11にて説明する。
Step 10-2 is a clause analysis process. Using the i-th reading of the input buffer IBUF as the head reading, the clauses are analyzed from the subsequent readings to create a clause candidate table. Details will be described with reference to FIG.

【0068】図11はステップ10−2の「文節解析処
理」を詳細化したフローチャートである。
FIG. 11 is a detailed flowchart of the "bunsetsu analysis process" in step 10-2.

【0069】ステップ11−1は、自立部辞書を検索す
る処理である。入力バッファIBUFのi番目の読み以
降の文字をキーとして、自立部辞書JDICを検索し、
部分一致する自立部を検出する。
Step 11-1 is a process for retrieving the independent dictionary. Using the character after the i-th reading of the input buffer IBUF as a key, search the independent dictionary JDIC,
Detect a partially matching free-standing part.

【0070】ステップ11−2は、カウンタjにステッ
プ11−1で検出した自立部の数を格納する。
In step 11-2, the number of independent parts detected in step 11-1 is stored in the counter j.

【0071】ステップ11−3は、カウンタkにカウン
タiにステップ11−1で検出した自立部のj番目の自
立部の読みの文字数を足して代入する。即ち、カウンタ
kは、入力バッファIBUFのk番目の読み文字を指し
ていることになる。
In step 11-3, the number of reading characters of the j-th independent portion of the independent portion detected in step 11-1 is added to the counter i and is substituted into the counter k. That is, the counter k indicates the k-th reading character in the input buffer IBUF.

【0072】ステップ11−4は、付属部辞書を検索す
る処理である。入力バッファIBUFのk番目の読み文
字以降の文字をキーとして、付属部辞書FDICを検索
し、部分一致する付属部を検出する。
Step 11-4 is a process for searching the appendix dictionary. Using the characters after the k-th reading character of the input buffer IBUF as a key, the adjunct dictionary FDIC is searched to detect an adjunct that partially matches.

【0073】部分一致する付属部が検出できない場合に
は、ステップ11−4において、処理をステップ11−
7に進め、検出できた場合には処理を、ステップ11−
6に進める。
If the attached part that partially matches is not detected, the processing is performed in step 11-4.
If it can be detected, the process proceeds to step 11-
Proceed to 6.

【0074】ステップ11−6は、検出した付属部と、
直前の自立部との連接可否を判定する処理である。判定
には図4に示した連接判定テーブルCTBLが用いられ
る。連接不可能な場合には、処理をステップ11−4に
戻して、再び付属部辞書を検索する。連接可能な場合に
は、処理をステップ11−7に進める。
Step 11-6 is to detect the attached parts,
This is a process of determining whether or not the connection with the immediately preceding independent section is possible. The connection determination table CTBL shown in FIG. 4 is used for the determination. If connection is not possible, the process is returned to step 11-4, and the accessory dictionary is searched again. If they can be connected, the process proceeds to step 11-7.

【0075】ステップ11−7は、文節生成処理であ
る。直前に検出した自立部と付属部を組み合わせた文字
列を文節として、文節候補テーブルのノードに登録す
る。
Step 11-7 is a clause generation process. A character string that is a combination of the independent part and the attached part detected immediately before is registered as a phrase in the node of the phrase candidate table.

【0076】ステップ11−8は、入力バッファIBU
Fの処理すべき読み先頭文字を更新する処理である。即
ち、直前に処理した自立部の先頭位置kに付属部の読み
数を足し込んだものをカウンタiに格納する。
In step 11-8, the input buffer IBU is used.
This is a process of updating the reading leading character of F to be processed. That is, a value obtained by adding the number of readings of the attached part to the head position k of the self-supporting part processed immediately before is stored in the counter i.

【0077】ステップ11−9は、入力バッファIBU
Fに格納されている文字数と、カウンタiを比較する処
理である。入力バッファIBUFに格納されている文字
数が、カウンタiより小さい場合には、入力バッファに
格納されている読みを全て処理したことになるので、当
該処理をリターンする。そうでない時には、未処理の読
みが残っているということなので、処理をステップ11
−10に進める。
Step 11-9 is the input buffer IBU.
This is a process of comparing the number of characters stored in F with the counter i. If the number of characters stored in the input buffer IBUF is smaller than the counter i, it means that all the readings stored in the input buffer have been processed, and the process is returned. If not, it means that there are unprocessed readings, so the process proceeds to step 11.
Go to -10.

【0078】ステップ11−10は、文節解析処理であ
る。文節解析処理は、まさしく図11に示す当該処理で
あり、再帰的にコールすることが可能である。このステ
ップにおいて、文節解析処理をコールすることは、入力
バッファのi番目の読み以降の読み列に対して、文節解
析を行うことを意味する。ステップ10−2においてコ
ールした時には、iが1にセットされていたが、当該ス
テップでコールする場合は、iが更新されている。
Step 11-10 is a clause analysis process. The phrase analysis processing is exactly the processing shown in FIG. 11, and can be called recursively. In this step, calling the bunsetsu analysis processing means performing bunsetsu analysis on the i-th and subsequent reading strings in the input buffer. When i was called in step 10-2, i was set to 1. However, i was updated when i was called in this step.

【0079】ステップ11−11は、カウンタjの更新
処理である。ひとつの自立部に対する処理を終了したの
で、カウンタjを1だけ減じる。
Step 11-11 is a process for updating the counter j. Since the processing for one independent part is completed, the counter j is decremented by 1.

【0080】ステップ11−12は、処理すべき未処理
の自立部の存在を判定する処理である。まだ、未処理の
自立部が存在する場合には、処理をステップ11−3に
進める。そうでない場合には、当該処理をリターンす
る。
Steps 11-12 are processes for determining the presence of an unprocessed independent part to be processed. If there are still unprocessed independent sections, the process proceeds to step 11-3. If not, the process is returned.

【0081】なお、本発明は上述した実施例に限定され
るものではない。
The present invention is not limited to the above embodiment.

【0082】本実施例においては、第1候補決定処理に
おいて、文節数最小法と、自立語の優先度および、付属
部の優先度を組み合わせて決定するものとしたが、この
ような方法に限定するものではない。例えば、連接判定
テーブルに準備した連接強度の加味した計算式で決定す
る構成としてもよい。
In the present embodiment, in the first candidate determination process, the minimum clause number method, the priority of the independent word, and the priority of the attached part are determined in combination, but the method is limited to such a method. Not something to do. For example, the connection determination table may be determined by a calculation formula that takes into account the connection strength prepared.

【0083】その他、本発明はその要旨を逸脱しない範
囲で種々変形して実施することができる。
In addition, the present invention can be variously modified and implemented without departing from the scope of the invention.

【0084】[0084]

【発明の効果】以上の説明から明らかなように本発明に
よれば、 (1)付属部辞書に連接可能な付属語列を1つの付属部
として格納し、付属部同士は非連接とすることにより、
無意味な付属語の連接がなくなり、精度の高いかな漢字
変換が実現できる; (2)さらに、上記に加えて、付属部辞書に付属語と自
立語との連接で構成される言い回しを格納することによ
り、精度の高いかな漢字変換が実現できる; (3)さらに、上記効果に加えて、前記付属部辞書手段
に格納される各付属部には、優先度情報を対応づけて記
憶することにより、付属部の優先度を有効に活用した、
精度の高いかな漢字変換が実現できる;という効果があ
る。
As is apparent from the above description, according to the present invention, (1) an adjunct word string that can be connected to an adjunct dictionary is stored as one adjunct, and the adjuncts are not connected. Due to
Highly accurate kana-to-kanji conversion can be realized by eliminating meaningless adjunct word concatenation; (2) In addition to the above, the adjunct dictionary can also store wording composed of concatenations of adjunct words and independent words. With this, highly accurate kana-kanji conversion can be realized. (3) Further, in addition to the above-mentioned effect, each auxiliary section stored in the auxiliary section dictionary means stores priority information in association with each other, thereby attaching Effective use of departmental priority,
It has the effect of enabling highly accurate kana-kanji conversion.

【図面の簡単な説明】[Brief description of drawings]

【図1】本発明の実施例における全体構成のブロック図
である。
FIG. 1 is a block diagram of an overall configuration according to an embodiment of the present invention.

【図2】本発明の実施例における自立部辞書の構成例を
示した図である。
FIG. 2 is a diagram showing a configuration example of an independent section dictionary according to an embodiment of the present invention.

【図3】本発明の実施例における付属部辞書の構成例を
示した図である。
FIG. 3 is a diagram showing a configuration example of an appendix dictionary according to an embodiment of the present invention.

【図4】本発明の実施例における連接判定テーブルの構
成例を示した図である。
FIG. 4 is a diagram showing a configuration example of a connection determination table in the embodiment of the present invention.

【図5】本発明の実施例における入力バッファ及び出力
バッファの構成例を示した図である。
FIG. 5 is a diagram showing a configuration example of an input buffer and an output buffer in the embodiment of the present invention.

【図6】本発明の実施例における文節候補テーブルの構
成例を示した図である。
FIG. 6 is a diagram showing a configuration example of a phrase candidate table in the embodiment of the present invention.

【図7】本発明の実施例における文節候補テーブルの構
成例を示した図である。
FIG. 7 is a diagram showing a configuration example of a phrase candidate table in the embodiment of the present invention.

【図8】本発明の実施例における文字処理装置の動作を
示すフローチャートである。
FIG. 8 is a flowchart showing an operation of the character processing device in the embodiment of the present invention.

【図9】本発明の実施例における変換処理の動作を示す
フローチャートである。
FIG. 9 is a flowchart showing an operation of conversion processing in the embodiment of the present invention.

【図10】本発明の実施例における文節候補テーブル作
成処理の動作を示すフローチャートである。
FIG. 10 is a flowchart showing an operation of a phrase candidate table creating process in the embodiment of the present invention.

【図11】本発明の実施例における文節解析処理の動作
を示すフローチャートである。
FIG. 11 is a flowchart showing an operation of a phrase analysis process in the example of the present invention.

【符号の説明】[Explanation of symbols]

CPU マイクロプロセッサ AB アドレスバス CB コントロールバス DB データバス ROM 読出し専用固定メモリ PA プログラムエリア RAM ランダムアクセスメモリ JDIC 自立部辞書 FDIC 付属部辞書 CTBL 連接判定テーブル IBUF 入力バッファ OBUF 出力バッファ BTBL 文節候補テーブル KB キーボード DISK 外部メモリ CR カーソルレジスタ DBUF 表示用バッファメモリ CPU microprocessor AB address bus CB control bus DB data bus ROM Read-only fixed memory PA program area RAM random access memory JDIC Independent Department Dictionary FDIC attachment dictionary CTBL connection judgment table IBUF input buffer OBUF output buffer BTBL clause candidate table KB keyboard DISK external memory CR cursor register DBUF display buffer memory

───────────────────────────────────────────────────── フロントページの続き (56)参考文献 特開 平5−67077(JP,A) 特開 平3−265061(JP,A) 特開 平4−256159(JP,A) 特開 平3−286249(JP,A) 特開 平2−36466(JP,A) (58)調査した分野(Int.Cl.7,DB名) G06F 17/21 - 17/24 ─────────────────────────────────────────────────── ─── Continuation of the front page (56) References JP-A-5-67077 (JP, A) JP-A-3-265061 (JP, A) JP-A-4-256159 (JP, A) JP-A-3- 286249 (JP, A) JP-A-2-36466 (JP, A) (58) Fields investigated (Int.Cl. 7 , DB name) G06F 17/21-17/24

Claims (3)

(57)【特許請求の範囲】(57) [Claims] 【請求項1】 仮名文字列を入力するための、入力手段
と、 単語の読みと、表記および品詞などの文法情報とを対応
づけて記憶した単語辞書手段と、 助詞や助動詞などの付属語を、その読みと表示および文
法情報とを対応づけて記憶した付属部辞書手段と、 前記入力手段により入力された仮名文字列を、前記単語
辞書手段および前記付属部辞書手段を参照して、対応す
る表記に変換するかな漢字変換手段とを有し、 前記付属部辞書手段に、単一の付属語とともに、連接し
て使用可能な付属語列を1つの付属部として格納し、前
記仮名漢字変換手段による変換において、付属部同士を
非連接とすることを特徴とする文字処理装置。
1. An input means for inputting a kana character string, a word dictionary means storing word readings, grammatical information such as notations and parts of speech in association with each other, and auxiliary words such as particles and auxiliary verbs. , The reading, display, and grammatical information are stored in association with each other, and the kana character string input by the inputting means is referred to by referring to the word dictionary means and the adding dictionary. A kana-kanji conversion means for converting into notation, and the adjunct dictionary means stores a single adjunct and an adjunct word string that can be concatenated and used as one adjunct, and the kana-kanji conversion means In the conversion, the character processing device is characterized in that the attached parts are not connected.
【請求項2】 請求項1に記載の文字処理装置におい
て、さらに、前記付属部辞書手段に、付属語および付属
語列とともに、付属語と自立語との連接により構成され
る言い回しを1つの付属部として格納することを特徴と
する文字処理装置。
2. The character processing device according to claim 1, further comprising, in the adjunct dictionary means, an adjunct word and an adjunct word string, and an adjunct word formed by connecting an adjunct word and an independent word. A character processing device characterized by being stored as a part.
【請求項3】 請求項1または請求項2に記載の文字処
理装置において、さらに、前記付属部辞書手段に格納さ
れる各付属部には、優先度情報を対応づけて記憶するこ
とを特徴とする文字処理装置。
3. The character processing device according to claim 1 or 2, further comprising: priority information is stored in association with each attached part stored in said attached part dictionary means. Character processing device.
JP01401395A 1995-01-31 1995-01-31 Character processor Expired - Fee Related JP3524189B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP01401395A JP3524189B2 (en) 1995-01-31 1995-01-31 Character processor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP01401395A JP3524189B2 (en) 1995-01-31 1995-01-31 Character processor

Publications (2)

Publication Number Publication Date
JPH08202700A JPH08202700A (en) 1996-08-09
JP3524189B2 true JP3524189B2 (en) 2004-05-10

Family

ID=11849319

Family Applications (1)

Application Number Title Priority Date Filing Date
JP01401395A Expired - Fee Related JP3524189B2 (en) 1995-01-31 1995-01-31 Character processor

Country Status (1)

Country Link
JP (1) JP3524189B2 (en)

Also Published As

Publication number Publication date
JPH08202700A (en) 1996-08-09

Similar Documents

Publication Publication Date Title
US5878386A (en) Natural language parser with dictionary-based part-of-speech probabilities
JPH0721183A (en) Machine translation system
JPH11328166A (en) Character input device and computer-readable recording medium where character input processing program is recorded
JP3524189B2 (en) Character processor
JP3873305B2 (en) Kana-kanji conversion device and kana-kanji conversion method
JP2002510075A (en) Extending speech recognition dictionaries with derived words
JP3329476B2 (en) Kana-Kanji conversion device
JP2899087B2 (en) Character processor
JP2714239B2 (en) Character processor
JP3061855B2 (en) Kana-kanji conversion device and kana-kanji conversion method
JP2752025B2 (en) Machine translation equipment
JPS63136264A (en) Mechanical translating device
JPS60112175A (en) Abbreviation conversion system of kana (japanese syllabary)/kanji (chinese character) convertor
JPH1139347A (en) Text retrieval system, index generation device, text retrieval device and recording medium which computer can read
JPS6029823A (en) Adaptive type symbol string conversion system
JPH06289890A (en) Natural language processor
JPH0749869A (en) Word registration system
JPH0447442A (en) Character processor
JPH0468466A (en) Kana / kanji converting device
JPH10187706A (en) Method and device for document processing
JPH08241315A (en) Word registering mechanism for document processor
JPH02144660A (en) Kana/kanji converter
JPH0877159A (en) Learning method
JPH05181854A (en) Sentence proofreading device, sentence processing device, and kanji-kana conversion device
JPS60112174A (en) Abbreviation conversion system of kana (japanese syllabary)/kanji (chinese character) convertor

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20040130

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040212

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080220

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090220

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100220

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100220

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110220

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees