JP3029109B2 - Character processing apparatus and method - Google Patents
Character processing apparatus and methodInfo
- Publication number
- JP3029109B2 JP3029109B2 JP63041594A JP4159488A JP3029109B2 JP 3029109 B2 JP3029109 B2 JP 3029109B2 JP 63041594 A JP63041594 A JP 63041594A JP 4159488 A JP4159488 A JP 4159488A JP 3029109 B2 JP3029109 B2 JP 3029109B2
- Authority
- JP
- Japan
- Prior art keywords
- reading
- delimiter
- learning data
- conversion
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Document Processing Apparatus (AREA)
Description
【発明の詳細な説明】 [産業上の利用分野] 本発明はかな漢字変換を行ないながら漢字等の文字を
入力し、日本語の文書等のドキユメントを作成編集する
文字処理装置において、変換された漢字仮名混り文の文
節区切りを変更した際に、次回の入力からは正しく変換
できるようにすることができる文字処理装置に関する。DETAILED DESCRIPTION OF THE INVENTION [Industrial Application Field] The present invention relates to a character processing apparatus for inputting characters such as kanji while performing kana-kanji conversion and creating and editing a document such as a Japanese document. The present invention relates to a character processing device that can correctly convert the next input when a phrase separation of a kana mixed sentence is changed.
[従来の技術] 日本語ワードプロセツサなどの日本文を入力する文字
処理装置においては、漢字入力の手段として、キーボー
ド等より仮名列を入力し、入力された仮名列を仮名漢字
変換することが一般に行なわれている。特に近年はオペ
レータが文節の切れ目を意識せずに連続的に仮名入力が
可能な「ベタ書き変換」などを提供している機種もあ
る。しかし、このようなベタ書き変換は、システムの解
析能力がまだ不十分であるため、システムの提示する文
節の切れ目がオペレータの望む変換と異なる場合(誤変
換、あるいは誤分割)が発生する。このようなとき、オ
ペレータはいわゆる区切り変更キー(区切り縮小、区切
り伸長)を操作し、望む文節分割を指定するということ
が一般に行なわれている。[Prior Art] In a character processing apparatus for inputting Japanese sentences such as a Japanese word processor, as a means of inputting kanji, it is possible to input a kana string from a keyboard or the like and convert the input kana string into kana-kanji characters. Generally done. In particular, in recent years, there are models that provide “solid writing conversion” or the like that allows the operator to continuously input a kana without being aware of a break between phrases. However, such solid writing conversion has insufficient analysis capability of the system, so that a break in a phrase presented by the system may differ from the conversion desired by the operator (erroneous conversion or erroneous division). In such a case, it is a common practice for the operator to operate a so-called break change key (break reduction, break expansion) to designate a desired segmentation.
例えば、入力読み列として「そのもんだいにかんして
いかのごういがえられた」と入力したとき、システムが
誤って「その/問題に/関し/定価の/合意が/得られ
た」(「/」は文節の切れ目を示す)と変換したとす
る。このようなとき、オペレータは文節「関し」に対し
て「区切り伸長」を指示する。その結果、「その問題に
関して以下の合意が得られた」と正しい変換となる。For example, when the user inputs "I was informed about the problem" as an input reading sequence, the system erroneously said, "I got an agreement / agreement / at a fixed price / for the / problem" ( “/” Indicates a break in a phrase). In such a case, the operator instructs the phrase “relation” to “delimitation expansion”. As a result, the following conversion is correct: "The following agreement has been reached on the matter."
このような区切り変更操作に対しては、学習が行なわ
れないと非常な不便をオペレータに強いることになる。
例えば、上記の例では、次回にもう一度「そのもんだい
にかんしていかのごういがえられた」と入力すると、再
び、「その/問題に/関し/定価の/合意が/得られ
た」と変換されると、オペレータはもう一度区切り変更
を行なわなければならない。Unless learning is performed for such a break changing operation, the operator is very inconvenient.
For example, in the above example, when the user inputs "I have heard something about the problem" again next time, "I got an agreement / agreement / on the / problem / about / fixed price" again. The operator must make another break change.
このため、機種によってはオペレータが行なった区切
り変更を次回に反映させるためのいわゆる区切り学習機
能を具備しているものもある。区切り学習機能は個々の
単語の頻度を上下することにより行なわれる。For this reason, some models have a so-called break learning function for reflecting the break change performed by the operator next time. The break learning function is performed by increasing or decreasing the frequency of each word.
先の例で説明すると「かんしていかの」の変換につい
ては「関し」「関して」の頻度=2、「定価」の頻度=
4、「以下」の頻度=3とすると、「関し/定価の」の
頻度=2+4=6、「関して/以下の」の頻度=2+3
=5であるので、第1候補としては「関し/定価の」が
変換される。ここで区切り変更を行なって「「関して/
以下の」に変更したとき、頻度を、「定価」の頻度=
3、「以下」の頻度=4と逆転させれば、次回に再び
「かんしていかの」を入力したとき、「関し/定価の」
の頻度=2+3=5、「関して/以下の」の頻度=2+
4=6となるので、正しい変換「関して/以下の」が得
られ、区切り学習が行なわれたことになる。As described in the previous example, the frequency of “relation” and “relation” = 2 and the frequency of “price” =
4. Assuming that the frequency of “less than or equal to” = 3, the frequency of “relation / list price” = 2 + 4 = 6, the frequency of “relation / less than” = 2 + 3
Since “= 5”, “relation / fixed price” is converted as the first candidate. Change the delimiter here and enter ""
If you change to the following, change the frequency to the “list price” frequency =
3. If the frequency of "less than or equal to" is reversed to 4, the next time you input "Kashite Ika no", the "relation / fixed price"
Frequency = 2 + 3 = 5, frequency of “about / below” = 2 +
Since 4 = 6, the correct conversion “about / less than” is obtained, indicating that the segmentation learning has been performed.
[発明が解決しようとしている問題点] しかしながら、この従来方式の区切り学習では、関係
のない文脈で思わぬ誤変換が発生し、かえって変換率が
悪くなる可能性がある。[Problems to be Solved by the Invention] However, in the conventional segmented learning, unexpected erroneous conversion may occur in an unrelated context, and the conversion rate may be worsened.
例えば、上述の例では「以下」の頻度が向上している
ので、引き続き「それにかんしたいかのいけんをきく」
と入力し変換すると、「それに/関した/以下の/意見
を/聞く」などと変換され、オペレータの望む「それに
/関し/大家の/意見を/聞く」が変換されない可能性
がある。For example, in the above example, the frequency of “less than or equal to” has been improved,
When inputting and converting, it is converted to "it / related to / below / view / hear" and the like, and the operator's desired "it / related / home / view / hearing" may not be converted.
すなわち、「関する」という単語は「関し」「関し
て」と使用されることはよくあるが、「関した」と使用
されることは通常ないのであるが、従来の頻度に基く区
切り学習ではこの現象に対応することができない。In other words, the word "relating" is often used as "relating" or "relating", but is not usually used as "relating". Inability to respond to the phenomenon.
上記の問題を解決するために、区切り変更前後の1文
節分の局部的な読みを記憶する方式も考えられる。例え
ば、「かんして」「かんした」などの読みに対してどこ
で文節を分割すれば良いかを記憶し、「かんして」のと
きは「関して/」と変換し、「かんした」のときは「関
し/た」と変換する方式である。しかし、その場合にも
問題は残る。例えば、「もんだいにかんしていげんをう
けいれる」という入力の場合、「問題に/関し/提言を
/受け入れる」と変換されるのが自然であり、「問題に
/関して/威厳を/受け入れる」は不自然である。これ
は「関して/以下の」の場合と異なる。すなわち、同じ
「かんして」の読みに対して「関し/て」と変換したほ
うが良い場合と「関して/」と変換したほうが良い場合
が存在する。In order to solve the above-described problem, a method of storing a local reading for one phrase before and after the change of the delimiter is also conceivable. For example, it memorizes where to divide a sentence for readings such as "kante" and "kantan". Is a method of converting to "seki / ta". However, the problem remains in that case. For example, in the case of input of "accept a problem," it is natural that the input is converted to "accept / problem / recommend / accept" and "accept / problem / accept / accept." Is unnatural. This is different from the "about / less than" case. That is, there are cases where it is better to convert the same "kante" reading to "seki / te" and cases where it is better to convert it to "seki / te".
以上をまとめると「かんしていかの」→「関して以下
の」、「かんしたいかの」→「関し大家の」、「かんし
ていげんを」→「関し提言を」と変換されるべきなので
あり、従来方式のような個々の単語の頻度で対応する区
切り学習や、局部的な1文節分の読みを記憶する方式で
は、区切り学習の副作用が生じ、使い勝手の悪い仮名漢
字変換となってしまう。To summarize the above, it should be converted to "I want to do something" → "I want to do something less", "I want to make something" → "I want to make something", "I want to make something" → "I want to make recommendations". However, in the conventional method of delimiter learning corresponding to the frequency of each word or in a method of storing a local reading of one phrase, a side effect of delimiter learning occurs, resulting in inconvenient kana-kanji conversion.
[課題を解決するための手段] 上記課題を解決するために、本発明の文字処理装置
は、読みを入力する入力手段と、該入力手段より入力さ
れた読みを漢字仮名混じり文に変換する変換手段と、該
変換手段により変換された漢字仮名混じり文の文節の区
切り位置を変更する区切り変更手段と、区切り学習デー
タを記憶する記憶手段と、前記区切り変更手段による変
更後の区切り位置前後の2文節を含む読みと、該読みに
おける当該2文節の各文節の区切り方とを区切り学習デ
ータとして前記記憶手段に登録する登録手段と、前記入
力手段より入力された読みが前記記憶手段に記憶された
区切り学習データと一致する読みを含む場合、該読みを
当該区切り学習データの表わす2文節の各文節の区切り
方に基づいて変換し、前記入力された読みが前記区切り
学習データと一致する読みを含まない場合、当該入力さ
れた読みを当該区切り学習データによらずに変換するよ
うに、前記変換手段を制御する制御手段とを備える。[Means for Solving the Problems] In order to solve the above problems, a character processing apparatus of the present invention includes an input unit for inputting a reading, and a conversion for converting the reading input from the input unit into a sentence mixed with kanji kana. Means, a delimiter changing means for changing a delimiter position of a phrase of a sentence mixed with a kanji kana converted by the conversion means, a storage means for storing delimiter learning data, and two delimiter positions before and after the delimiter position changed by the delimiter change means. Registration means for registering a reading including a phrase and how to separate each of the two phrases in the reading in the storage means as delimiter learning data; and a reading input from the input means being stored in the storage means. If the reading that includes the delimiter learning data is included, the reading is converted based on the way of delimiting each of the two phrases represented by the delimiter learning data, and the input reading is And control means for controlling the conversion means so as to convert the input reading without depending on the delimiter learning data when the reading does not include the delimiter learning data.
また、本発明の文字処理方法は、読みを入力する入力
工程と、該入力工程で入力された読みを漢字仮名混じり
文に変換する変換工程と、該変換工程により変換された
漢字仮名混じり文の文節の区切り位置を変更する区切り
変更工程と、該区切り変更工程による変更後の区切り位
置前後の2文節を含む読みと、該読みにおける当該2文
節の各文節の区切り方とを区切り学習データとして区切
り学習データ記憶部に登録する登録工程とを備え、前記
変換工程においては、前記入力工程より入力された読み
が前記区切り学習データ記憶部に記憶された区切り学習
データと一致する読みを含む場合、該読みを当該区切り
学習データの表わす2文節の各文節の区切り方に基づい
て変換し、前記入力された読みが前記区切り学習データ
と一致する読みを含まない場合、当該入力された読みを
当該区切り学習データによらずに変換することを特徴と
する。Further, the character processing method of the present invention includes an input step of inputting a reading, a conversion step of converting the reading input in the input step into a sentence mixed with kanji kana, and a conversion of the sentence mixed with kanji kana converted by the conversion step. A delimiter change step of changing a delimiter position of a phrase, a reading including two phrases before and after the delimiter position after the change by the delimiter change process, and a method of delimiting each of the two phrases in the reading are separated as delimiter learning data. A registration step of registering in the learning data storage unit, wherein in the conversion step, when the reading input from the input step includes a reading that matches the separation learning data stored in the separation learning data storage unit, The pronunciation is converted based on the way of delimiting each of the two phrases represented by the delimiter learning data, and the input reading includes a reading that matches the delimiter learning data. If not, and converting the inputted read regardless to the separator learning data.
[実施例] 以下図面を参照しながら本発明を詳細に説明する。EXAMPLES Hereinafter, the present invention will be described in detail with reference to the drawings.
第1図は本発明の全体構成の一例である。 FIG. 1 shows an example of the overall configuration of the present invention.
図示の構成において、CPUは、マイクロプロセツサで
あり、文字処理のための演算、論理判断等を行ない、ア
ドレスバスAB、コントロールバスCB、データバスDBを介
して、それらのバスに接続された各構成要素を制御す
る。In the configuration shown in the figure, the CPU is a microprocessor, performs calculations for character processing, performs logical decisions, etc., and is connected to those buses via an address bus AB, a control bus CB, and a data bus DB. Control the components.
アドレスバスABはマイクロプロセツサCPUの制御の対
象とする構成要素を指示するアドレス信号を転送する。
コントロールバスCBはマイクロプロセツサCPUの制御の
対象とする各構成要素のコントロール信号を転送して印
加する。データバスDBは各構成機器相互間のデータの転
送を行なう。The address bus AB transfers an address signal indicating a component to be controlled by the microprocessor CPU.
The control bus CB transfers and applies a control signal of each component to be controlled by the microprocessor CPU. The data bus DB transfers data between the components.
つぎにROMは、読出し専用の固定メモリであり、第9
図〜第14図につき後述するマイクロプロセツサCPUによ
る制御の手順、及び、単語辞書、文法辞書等の固定デー
タを記憶させておく。単語辞書は読み、表記、文法情報
等が対応して記憶されたものであり、仮名漢字変換等で
参照される。文法辞書は形態素解析、構文解析等で必要
となる単語間の接続規則等が記憶されたものである。Next, the ROM is a fixed read-only memory.
The control procedure by the microprocessor CPU, which will be described later with reference to FIGS. To 14, and fixed data such as a word dictionary and a grammar dictionary are stored. The word dictionary is a dictionary in which readings, notations, grammar information, and the like are stored correspondingly, and is referred to in kana-kanji conversion and the like. The grammar dictionary stores, for example, connection rules between words necessary for morphological analysis, syntax analysis, and the like.
また、RAMは、1ワード16ビツトの構成の書込み可能
のランダムアクセスメモリであって、各構成要素からの
各種データの一時記憶に用いる。KULDTは第5図に詳述
される区切り学習データである。HENTBLは第7図に詳述
される変換候補テーブルである。KBBUFは入力された読
み列を蓄えるためのキーボードバツフアであり、第8図
に示すように構成される。The RAM is a writable random access memory having a structure of 16 bits per word, and is used for temporarily storing various data from each component. KULDT is delimiter learning data described in detail in FIG. HENTBL is a conversion candidate table detailed in FIG. KBBUF is a keyboard buffer for storing the input reading sequence, and is configured as shown in FIG.
KBはキーボードであって、アルフアベツトキー、ひら
かなキー、カタカナキー等の文字記号入力キー、及び、
カーソル移動キー、仮名漢字変換キー、区切り縮小キ
ー、区切り伸長キー等の本文字処理装置に対する各種機
能を指示するための各種のフアンクシヨンキーを備えて
いる。KB is a keyboard. Alphabet key, hiragana key, katakana key and other character symbol input keys, and
Various function keys for instructing various functions to the character processing apparatus, such as a cursor movement key, a kana-kanji conversion key, a delimiter reduction key, and a delimiter expansion key, are provided.
DISKは文書データを記憶するための外部記憶であり、
作成された文書の保管を行ない、保管された文書はキー
ボードの指示により、必要な時呼び出される。DISK is an external storage for storing document data,
The created document is stored, and the stored document is called up by a keyboard instruction when necessary.
CRはカーソルレジスタである。CPUにより、カーソル
レジスタの内容を読み書きできる。後述するCRTコント
ローラCRTCは、ここに蓄えられたアドレスに対応する表
示装置CRT上の位置にカーソルを表示する。CR is a cursor register. The CPU can read and write the contents of the cursor register. A CRT controller CRTC described later displays a cursor at a position on the display device CRT corresponding to the address stored here.
DBUFは表示用バツフアメモリで、表示すべきデータの
パターンを蓄える。文書データの内容の表示を行なうと
きは、DBUF上にパターンを展開することにより行なわれ
る。DBUF is a display buffer memory for storing patterns of data to be displayed. When displaying the contents of the document data, it is performed by developing a pattern on the DBUF.
CRTCはカーソルレジスタCR及びバツフアDBUFに蓄えら
れた内容を表示器CRTに表示する役割を担う。The CRTC plays a role of displaying the contents stored in the cursor register CR and the buffer DBUF on the display CRT.
またCRTは陰極線管等を用いた表示装置であり、その
表示装置CRTにおけるドツト構成の表示パターンおよび
カーソルの表示をCRTコントローラで制御する。さら
に、CGはキヤラクタジエネレータであって、表示装置CR
Tに表示する文字、記号のパターンを記憶するものであ
る。The CRT is a display device using a cathode ray tube or the like, and the display pattern of the dot configuration and the display of the cursor on the display device CRT are controlled by a CRT controller. Further, CG is a character generator, and the display device CR
This stores the pattern of characters and symbols displayed on T.
かかる各構成要素からなる本発明文字処理装置におい
ては、キーボードKBからの各種の入力に応じて作動する
ものであって、キーボードKBからの入力が供給される
と、まず、インタラプト信号がマイクロプロセツサCPU
に送られ、そのマイクロプロセツサCPUがROM内に記憶し
てある各種の制御信号を読出し、それらの制御信号に従
って各種の制御が行なわれる。The character processing device of the present invention comprising such components operates in response to various inputs from the keyboard KB. When an input from the keyboard KB is supplied, first, an interrupt signal is generated by the microprocessor. CPU
The microprocessor CPU reads various control signals stored in the ROM, and performs various controls in accordance with the control signals.
第2図は本発明装置の画面構成を示した図である。図
中、CRTは表示画面を意味する。CMはカーソルであり、
次にキー入力を行なったとき、文字が入っていく位置を
示すものである。TSはテキスト画面であり、記憶されて
いる文書の内容が表示される。MSはモニタラインであ
り、入力されるキーデータが逐一表示されるエリアであ
る。仮名漢字変換等を行なうときは一旦MSに読み列が表
示され、変換後、変換結果がTS上に転送される。なお、
仮名漢字変換キーは「/」で示される。FIG. 2 is a diagram showing a screen configuration of the apparatus of the present invention. In the figure, CRT means a display screen. CM is a cursor,
Next, when a key input is performed, it indicates a position where a character enters. TS is a text screen on which the contents of the stored document are displayed. MS is a monitor line, which is an area where input key data is displayed one by one. When performing Kana-Kanji conversion, etc., a reading column is displayed once on the MS, and after conversion, the conversion result is transferred to the TS. In addition,
The kana-kanji conversion key is indicated by “/”.
第3図は本発明における区切り伸長の操作方法を示し
た図である。まず操作者は、「その」を文書中に入力
し、更に「問題に関して以下の合意が得られた」を入力
しようとして、読み「もんだいにかんしていかのごうい
がえられた」をキー入力し、次いで、仮名漢字変換キー
「/」を入力する。(a) 「もんだいにかんしていかのごういがえられた/」が
仮名漢字変換され「問題に関し定価の合意が得られた」
となりテキスト画面に入っていく。(b) この時操作者は「関し定価の」の部分が自分の望む文
節分割ではなかったことに気付き、カーソルを「関」の
位置に移動する。(c) 次いで区切り伸長キーを入力して文節「関し」の伸長
を指示する。「関して以下の」と再変換され、表示され
る。(d) 第4図は本発明における区切り縮小の操作方法を示し
た図である。まず操作者は、「その」を文書中に入力
し、更に「提案に対し対価を払った」を入力しようとし
て、読み「ていあんにたいしたいかをはらった」をキー
入力し、次いで、仮名漢字変換キー「/」を入力する。
(a) 「ていあんにたいしたいかをはらった/」が仮名漢字
変換され「提案に対した医科を払った」となりテキスト
画面に入っていく。(b) この時操作者は「対した医科を」の部分が自分の望む
文節分割ではなかったことに気付き、カーソルを「対」
の位置に移動する。(c) 次いで区切り縮小キーを入力して文節「対した」の縮
小を指示する。「対し対価を」と再変換され、表示され
る。(d) 第5図は区切り学習データKULDTの構成を示した図で
ある。FIG. 3 is a view showing a method of operating the decompression and extension according to the present invention. First, the operator inputs "that" in the document, and then tries to input "the following agreement was reached on the problem". And then input the kana / kanji conversion key "/". (A) “I was told about the problem /” was converted to Kana-Kanji characters, and “a fixed price agreement was reached on the problem”
Next enter the text screen. (B) At this time, the operator notices that the portion of "relation price" is not the desired segmentation, and moves the cursor to the position of "relation". (C) Next, a decompression expansion key is input to instruct expansion of the phrase “Seki”. It is re-converted as "About" and displayed. (D) FIG. 4 is a diagram showing an operation method of delimiter reduction according to the present invention. First, the operator inputs "that" in the document, further tries to input "paid for the proposal", reads and inputs the key "I want to do what I want", and then the kana kanji Enter the conversion key "/".
(A) "I want to do what you want /" is converted to Kana-Kanji and becomes "Paid for the proposal" and enters the text screen. (B) At this time, the operator notices that the part of “the corresponding medical department” is not the desired segmentation, and moves the cursor to the “pair”.
Move to the position. (C) Next, a delimiter reduction key is input to instruct to reduce the phrase “to”. It is re-converted to "Consideration" and displayed. (D) FIG. 5 is a diagram showing the configuration of the delimiter learning data KULDT.
読みは区切り変更に関係する2文節分の読みを記憶す
るエリアである。第1文節読み数は、前記読みのうち区
切り変更後の第1文節になる部分の読み数を格納する。
第2文節読み数は、前記読みのうち区切り変更後の第2
文節になる部分の読み数を格納する。The reading is an area for storing readings for two phrases related to the change of the break. The first phrase reading number stores the number of readings of a portion that becomes the first phrase after the delimiter is changed in the reading.
The second phrase reading number is the second of the readings after the break is changed.
Stores the number of readings of the phrase.
例えば、入力「かんしていかのごういが」に対して
「関し/定価の/合意が」と変換され、区切り変更で
「関して/以下の/合意が」に修正した場合を考える。
この時、2文節分の読みは「かんしていかの」であり、
区切り変更後の第1文節の読みは「かんして」第2文節
の読みは「いかの」である。従って、区切り学習データ
への登録は、読み=「かんしていかの」、第1文節読み
数=4、第2文節読み数=3となる。For example, consider a case in which the input “Kishite Ikaigaigaiga” is converted to “Relationship / fixed price / agreement” and changed to “Relationship / following / agreement” by changing the break.
At this time, the reading for the two phrases is "I'm gonna do it,"
The reading of the first phrase after the change of the delimiter is “kante”, and the reading of the second phrase is “squid”. Therefore, the registration in the delimiter learning data is as follows: reading = “Kanashi Ikano”, first phrase reading number = 4, second phrase reading number = 3.
また別の例として、入力「このへやはたいへんあつ
い」に対して「古野へ/八幡/異変/暑い」と変換さ
れ、区切り変更で「この/部屋は/大変/暑い」に修正
した場合を考える。この時、区切り変更前の2文節の読
みは「このへやはた」であり、変更後の2文節の読みは
「このへやは」であるので、長いほうの「このへやは
た」が区切り学習データの読みとなる。区切り変更後の
第1文節の読みは「この」、第2文節の読みは「へや
は」である。従って、区切り学習データへの登録は、読
み=「このへやはた」、第1文節読み数=2、第2文節
読み数=3となる。As another example, the case where the input “This Heya is very hot” is converted to “Furuno / Yawata / Urgent / Hot”, and modified to “This / Room is / Very / Hot” by changing the separator Think. At this time, the reading of the two phrases before the change of the delimiter is “this heyahata”, and the reading of the two phrases after the change is “this heyahata”, so the longer “this heyahata” Is the reading of the delimiter learning data. The first phrase reading after the delimiter change is “this”, and the second phrase reading is “heyaha”. Therefore, the registration to the delimiter learning data is as follows: reading = “this part”, first phrase reading number = 2, second phrase reading number = 3.
第6図は仮名漢字変換を行なう際に、処理途中で解析
される文節候補の例を示した図である。FIG. 6 is a diagram showing an example of a phrase candidate analyzed in the middle of processing when performing kana-kanji conversion.
入力「かんしていかのごうい」に対して可能な文節構
造を図示している。左端は第1文節の候補であり、
「官」「関し」「関して」の可能性があることを意味す
る。実際には例えば「官」に対して「缶」「漢」「環」
などの同音語があるが、煩雑になるので図では省略して
いる。FIG. 7 illustrates a possible phrase structure for the input “Kanashi Ika no Goai”. The left end is a candidate for the first phrase,
It means that there is a possibility of "government", "relationship" and "relationship". Actually, for example, for "government", "can""kan""ring"
There are homonyms such as, but they are omitted in the figure because they are complicated.
第2文節の候補としては、第1文節「官」に対して
「死」「仕手」「指定」があり、第1文節「関し」に対
して「手」「帝」「定価」「定価の」があり、第1文節
「関して」に対して「胃」「医科」「医科の」の可能性
があることを意味する。Candidates for the second phrase are “death”, “worker”, and “designation” for the first phrase “government”, and “hand”, “empire”, “price”, “price” Means that there is a possibility of “stomach”, “medical”, “medical” for the first phrase “relating”.
以下同様に文節の構造が表現される。 Hereinafter, the phrase structure is similarly expressed.
第7図は前述の文節候補を内部的に記述するための変
換候補テーブルHENTBLの構成を示した図である。FIG. 7 is a diagram showing the structure of a conversion candidate table HENTBL for internally describing the above-mentioned phrase candidates.
「読み」の欄は各文節の読みを記述する。「辞書」の
欄は、その文節の自立部の単語が単語辞書上のどの部分
に存在するかアドレスを記述する。図中では鍵括弧で括
ってアドレスを意味している。「送り仮名数」は「読
み」で記述した読みのうち自立部の読みを除いた送り仮
名部分の読み数を記述する。例えば、「関して」であれ
ば送り仮名「して」の読み数を記述する。「次候補」の
欄はその文節と交代しうる次候補の文節を指し示すポイ
ンタである。第6図の文節候補の図で言うと、縦の位置
に並ぶ文節をリンクするものである。例えば、「官」は
「関し」「関して」にリンクしている。次候補が存在し
ないときは「−1」を格納してそれ以上リンクが続かな
いことが分かるようになっている。「次文節」の欄は、
その文節に引き続く文節へのリンクである。第6図の文
節候補の図は右の位置になら部文節をリンクするもので
ある。例えば、「死」は「仕手」「指定」にリンクして
いる。次文節が存在しないときは「−1」を格納してそ
れ以上リンクが続かないことが分かるようになってい
る。The “reading” column describes the reading of each phrase. The column of "dictionary" describes an address in which part of the word in the independent part of the phrase exists in the word dictionary. In the figure, the addresses are enclosed in parentheses. The “number of kana words” describes the number of readings of the kana part of the reading described in the “yomi” excluding the reading of the independent part. For example, in the case of "relating", the number of readings of the sending pseudonym "re" is described. The “next candidate” column is a pointer that indicates a phrase of the next candidate that can be replaced with the phrase. In the phrase candidate diagram shown in FIG. 6, the phrases arranged vertically are linked. For example, “government” is linked to “relation” and “relation”. When there is no next candidate, "-1" is stored so that it can be understood that the link does not continue any more. The "next clause" column is
This is a link to the phrase following the phrase. The phrase candidate diagram in FIG. 6 links a partial phrase if it is at the right position. For example, “death” is linked to “worker” and “designation”. If the next clause does not exist, "-1" is stored so that it can be understood that the link does not continue any more.
第8図はキーボードバツフアKBBUFの構成を示した図
である。キーボードから入力されたキーデータは一旦こ
のKBBUFに蓄えられる。例えば、仮名漢字変換のときは
変換される条件が整うまで、読み列がこのKBBUFに蓄積
され、変換条件が整った段階で漢字に変換され、バツフ
アがクリアされる。FIG. 8 is a diagram showing the configuration of the keyboard buffer KBBUF. Key data input from the keyboard is temporarily stored in this KBBUF. For example, in the case of kana-kanji conversion, the reading sequence is stored in this KBBUF until the conditions for conversion are satisfied, and converted into kanji when the conversion conditions are satisfied, and the buffer is cleared.
文字は例えばJIS X 0208コードコードを使用して1文
字2バイトで格納される。図中「/」は仮名漢字変換キ
ーを意味し、「/」までに格納されている読み列を漢字
に変換するという意味である。Characters are stored in 2 bytes per character using, for example, JIS X 0208 code code. In the figure, "/" means a kana-kanji conversion key, and means that the reading sequence stored up to "/" is converted into kanji.
上述の実施例の動作をフローに従って説明する。 The operation of the above embodiment will be described according to a flow.
第9図はキー入力を取り込み、処理を行なう部分のフ
ローチヤートである。FIG. 9 is a flow chart of a part for receiving a key input and performing processing.
ステツプ9−1はキーボードからのデータを入力バツ
フアKBBUFに取り込む処理である。Step 9-1 is a process for taking in data from the keyboard into the input buffer KBBUF.
ステツプ9−2において入力バツフアKBBUFのキー内
容をチエツクし、キーの種類に応じて各処理に分岐す
る。KBBUF内に仮名漢字変換キーのデータが含まれてい
たときは仮名漢字変換を行なわなければならずステツプ
9−3に分岐する。KBBUF先頭が区切り縮小キーまたは
区切り伸長キーであれば区切り変更を行なわなければな
らずステツプ9−4に分岐する。上記以外のキー内容で
あれば、通常の編集処理を行なうのでステツプ9−5に
分岐し、カーソル移動、挿入、削除等の一般のワードプ
ロセツサにおいて見られるその他の処理を行なう。。In step 9-2, the key contents of the input buffer KBBUF are checked, and the process branches to each process according to the type of the key. If the data of the kana-kanji conversion key is included in the KBBUF, the kana-kanji conversion must be performed, and the process branches to step 9-3. If the head of KBBUF is the delimiter reduction key or delimiter expansion key, the delimiter must be changed, and the process branches to step 9-4. If the contents of the key are other than those described above, normal editing processing is performed, so that the process branches to step 9-5 to perform other processing such as cursor movement, insertion, and deletion, which are found in general word processors. .
ステツプ9−3において第10図に詳述するようにKBBU
F上の入力読み列を仮名漢字変換し、文書に出力し、表
示する。In step 9-3, as described in detail in FIG.
Convert the input reading string on F to Kana-Kanji, output it to a document, and display it.
ステツプ9−4において第14図に詳述するように区切
り変更を行ない、文書に出力し、表示する。In step 9-4, the delimiter is changed as described in detail in FIG. 14, and the result is output to a document and displayed.
第10図はステツプ9−2「仮名漢字変換」を詳細化し
たフローチヤートである。ステツプ10−1においてKBBU
F上にある入力読み列を単語辞書、文法辞書等を参照し
て形態素解析、構文解析等を行ない、変換候補テーブル
HENTBLを作成する。FIG. 10 is a detailed flowchart of step 9-2 “Kana-Kanji conversion”. In step 10-1, KBBU
Performs morphological analysis, syntax analysis, etc. on the input reading sequence on F with reference to a word dictionary, grammar dictionary, etc., and a conversion candidate table
Create HENTBL.
ステツプ10−2において、第11図に詳述するように、
上記変換候補のうちどの変換候補を変換すべきか、第1
候補を決定する。At step 10-2, as detailed in FIG.
Which of the above conversion candidates is to be converted,
Determine candidates.
ステツプ10−3において、決定された第1候補(採用
文節)を1文節ずつ漢字仮名混り文に変換していく。In step 10-3, the determined first candidate (adopted phrase) is converted into a sentence mixed with kanji and kana one by one.
ステツプ10−4において作成された変換文字列を文書
にセツトする。更に文書の変更内容が分かるように変換
文字列がセツトされた付近を表示する。The converted character string created in step 10-4 is set in the document. Further, the vicinity where the converted character string is set is displayed so that the contents of the change of the document can be understood.
第11図はステツプ10−2「第1候補決定」を詳細化し
たフローチヤートである。FIG. 11 is a detailed flowchart of step 10-2 "Determine first candidate".
ステツプ11−1は変数の初期化処理である。変換候補
テーブルHETBL中の文節を指し示すポインタである現文
節ポインタを1に初期化し、先頭の文節の第1候補を指
し示すようにする。次に、採用された文節が何番目の文
節であるかを示すカウンタiを1に初期化する。最後に
入力読みバツフアKBBUF上の読みのうち、どの部分を現
在処理中であるかを示すポインタ入力読みポインタを1
に初期化し、読みの先頭を示すようにする。Step 11-1 is a variable initialization process. The current phrase pointer, which is a pointer pointing to a phrase in the conversion candidate table HETBL, is initialized to 1 so as to point to the first candidate of the first phrase. Next, a counter i indicating the order of the adopted phrase is initialized to one. Finally, a pointer indicating which part of the reading on the input reading buffer KBBUF is currently being processed is set to one.
To indicate the beginning of the reading.
ステツプ11−2においてそれまでに全文節の処理が終
了したかを判定する。具体的には現文節ポインタが−1
であるかどうかで判定する。全文節の処理が終了してい
るとき(現文節ポインタ=−1のとき)はリターンす
る。In step 11-2, it is determined whether the processing of all the clauses has been completed. Specifically, the current phrase pointer is -1.
Is determined. When the processing of all the clauses has been completed (when the current clause pointer = -1), the process returns.
ステツプ11−3において第12図に詳述するように区切
り学習サーチを行ない、現在処理している読みが区切り
学習データに登録されているかどうかをサーチする。も
しあれば、採用区切り学習として出力される。In step 11-3, a delimiter learning search is performed as described in detail in FIG. 12, and a search is made as to whether the currently processed reading is registered in the delimiter learning data. If there is, it is output as adoption break learning.
ステツプ11−4において採用区切り学習が出力された
かどうかを判定し、もしあればステツプ11−5に進む
が、無ければステツプ11−8に分岐する。At step 11-4, it is determined whether or not adoption break learning has been output. If so, the process proceeds to step 11-5, but if not, the process branches to step 11-8.
ステツプ11−5において第13図に詳述するように変換
候補サーチを行ない、ステツプ11−3で出力された採用
区切り学習に整合する変換候補が存在するかどうかサー
チする。もしあれば、第1採用変換候補、第2変換候補
が出力される。またこの時採用文節数=2が設定され
る。In step 11-5, a conversion candidate search is performed as described in detail in FIG. 13, and a search is made to determine whether there is a conversion candidate that matches the adopted break learning output in step 11-3. If so, a first adopted conversion candidate and a second conversion candidate are output. At this time, the number of adopted phrases = 2 is set.
ステツプ11−6において整合する変換候補が見つかっ
たかどうかを判定し、見つかったときはステツプ1−7
に分岐し、見つからなかったときはステツプ11−8に分
岐する。At step 11-6, it is determined whether or not a matching conversion candidate is found, and if found, step 1-7 is performed.
If not, the flow branches to step 11-8.
ステツプ11−7において、ステツプ11−5で出力され
た第1採用変換候補、第2変換候補を第i文節、第i+
1文節として採用し、ステツプ11−10に分岐する。In step 11-7, the first adopted conversion candidate and the second conversion candidate output in step 11-5 are referred to as an i-th clause and an i + th conversion candidate.
Adopted as one phrase and branches to steps 11-10.
ステツプ11−8において、整合する区切り学習がなか
ったわけであるから、通常の2文節最長一致法にしたが
って採用文節を決定する。In step 11-8, since there is no matching segmentation learning, the adopted phrase is determined according to the ordinary two-phrase longest matching method.
ステツプ11−9において採用文節数を1に設定する。 In step 11-9, the number of employed phrases is set to one.
ステツプ11−10において、iに採用文節数の値を加え
る。In step 11-10, the value of the number of employed phrases is added to i.
ステツプ11−11において、現文節ポインタを更新し、
採用文節の次の文節を指すようにする。具体的には変換
候補テーブルHENTBLの「次文節」の欄の値を代入するこ
とになる。ステツプ11−5で変換候補が採用されたとき
は第2採用変換候補の「次文節」を代入するようにす
る。また、入力読みポインタを採用された文節の読み数
分だけ加算して更新する。ステツプ11−5で変換候補が
採用されたときは第1採用変換候補、第2採用変換候補
の読み数の和を加算するようにする。In step 11-11, the current phrase pointer is updated, and
Point to the next clause after the adoption clause. Specifically, the value of the column of “next clause” of the conversion candidate table HENTBL is substituted. When the conversion candidate is adopted in step 11-5, the "next clause" of the second adopted conversion candidate is substituted. Also, the input reading pointer is added and updated by the number of readings of the adopted phrase. When a conversion candidate is adopted in step 11-5, the sum of the number of readings of the first adopted conversion candidate and the second adopted conversion candidate is added.
第12図はステツプ11−3「区切り学習サーチ」を詳細
化したフローチヤートである。FIG. 12 is a flowchart showing the details of step 11-3 “separation learning search”.
ステツプ12−1において、変数を初期化する。すなわ
ち、現在処理中の区切り学習データを指し示すぽんたで
ある「区学ポインタ」の値を1に初期化する。また、一
致した区切り学習データのうち最大の読み数のものを意
味する変数「最大読み数」の値を0に初期化する。In step 12-1, variables are initialized. In other words, the value of the “kugaku pointer”, which is the pattern indicating the segmented learning data currently being processed, is initialized to one. In addition, the value of the variable “maximum number of readings”, which means the largest number of readings among the matching delimiter learning data, is initialized to zero.
ステツプ11−2において処理される区切り学習データ
がなくなったかどうかを判定する。具体的には区学ポイ
ンタの値が−1になったかどうかで判定する。もし、区
切り学習データが終りのとき(区学ポインタ=−1のと
き)はステツプ12−8に分岐する。At step 11-2, it is determined whether or not there is no more break learning data to be processed. Specifically, it is determined whether or not the value of the ward pointer has become -1. If the segmented learning data ends (when the ward pointer = -1), the process branches to step 12-8.
ステツプ12−3において、現在処理中の区切り学習デ
ータ(区学ポインタが指し示す)の読みと、現在の入力
読み(KBBUF上の読みで、入力読みポインタの示す位置
以降)とを比較する。In step 12-3, the reading of the segmented learning data currently being processed (pointed to by the ku school pointer) is compared with the current input reading (the reading on the KBBUF and beyond the position indicated by the input reading pointer).
ステツプ12−4において、ステツプ12−3の比較が一
致するかどうか判定する。もし一致しなければステツプ
12−7に分岐する。At step 12-4, it is determined whether or not the comparison at step 12-3 matches. If not, step
Branch to 12-7.
ステツプ12−5において一致した区切り学習データの
読み数が最大読み数を超えているかどうかをチエツクす
る。もし、超えていなければステツプ12−7に分岐す
る。At step 12-5, it is checked whether or not the number of readings of the matching segmented learning data exceeds the maximum number of readings. If not, the flow branches to step 12-7.
ステツプ12−6において、見つかった区切り学習デー
タを当面の採用区切り学習データとする。In step 12-6, the found segmented learning data is used as the currently adopted segmented learning data.
ステツプ12−7において、次の区切り学習データの処
理を行なうために、区学ポインタを次の区切り学習を示
すように+1して更新する。In step 12-7, in order to process the next section learning data, the section pointer is updated by adding +1 to indicate the next section learning.
第13図はステツプ11−5「変換候補サーチ」を詳細化
したフローチヤートである。FIG. 13 is a detailed flowchart of step 11-5 “Conversion candidate search”.
ステツプ13−1において、変換候補テーブルHENTBL上
の文節のうち現在処理中の文節を示す変数であるiを現
文節ポインタの値に初期設定する。In step 13-1, the variable i indicating the phrase currently being processed among the phrases on the conversion candidate table HENTBL is initialized to the value of the current phrase pointer.
ステツプ13−2において、現在の文節の次候補が既に
終りであるかどうかを判定する。具体的にはiの値が−
1であるかどうかで判定する。もし、次候補が終り(i
=−1)のときはステツプ3−14に分岐する。In step 13-2, it is determined whether or not the next candidate of the current phrase is already over. Specifically, the value of i is-
It is determined based on whether it is 1. If the next candidate ends (i
If -1), the flow branches to step 3-14.
ステツプ13−3において、iの指し示す変換候補の読
み数と、採用区切り学習の第1文節読み数とが一致する
かどうか比較する。In step 13-3, it is compared whether or not the number of readings of the conversion candidate indicated by i matches the number of readings of the first phrase in the adoption break learning.
ステツプ13−4において、読み数の一致がどうであっ
たか判定し、もし、一致すれば、ステツプ13−6に進ん
で、第2文節目のチエツクに入る。一致しなければ、ス
テツプ13−5に分岐し、iの値をiの次候補を示すよう
に更新(HENTBLの「次候補」の欄を代入)し、更にステ
ツプ13−2に戻る。In step 13-4, it is determined how the reading numbers match, and if there is a match, the process proceeds to step 13-6 to enter the check of the second phrase. If they do not match, the flow branches to step 13-5, where the value of i is updated to indicate the next candidate of i (the "next candidate" column of HENTBL is substituted), and the process returns to step 13-2.
ステツプ13−6においてiの示す変換候補を第1採用
変換候補とする。In step 13-6, the conversion candidate indicated by i is set as the first adopted conversion candidate.
ステツプ13−7において、jの値をiの変換候補の次
文節を示すように初期設定する。(HENTBLの「次文節」
の欄を代入する。) ステツプ13−8において、jの次候補が既に終りであ
るかどうかを判定する。具体的にはjの値が−1である
かどうかで判定する。もし、次候補が終り(j=−1)
のときはステツプ12−14に分岐する。In step 13-7, the value of j is initialized to indicate the next clause of the conversion candidate of i. ("Next sentence" of HENTBL
Substitute the field of In step 13-8, it is determined whether the next candidate for j is already over. Specifically, it is determined whether the value of j is -1. If the next candidate ends (j = -1)
In the case of, the process branches to steps 12-14.
ステツプ13−9においてjの指し示す変換候補の読み
数と、採用区切り学習の第2文節読み数とが一致するか
どうか比較する。In step 13-9, it is compared whether the number of readings of the conversion candidate indicated by j matches the number of readings of the second phrase in the adoption break learning.
ステツプ13−10において読み数の一致がどうであった
か判定し、もし、一致すれば、ステツプ13−12に進む。
一致しなければ、ステツプ13−11に分岐し、jの値をj
の次候補を示すように更新(HENTBLの「次候補」の欄を
代入)し、更にステツプ13−8に戻る。It is determined in step 13-10 how the reading numbers match, and if they match, the process proceeds to step 13-12.
If not, the process branches to step 13-11, where the value of j is set to j
Is updated to indicate the next candidate (substitute the "next candidate" column of HENTBL), and the process returns to step 13-8.
ステツプ13−12においてjの示す変換候補を第2採用
変換候補とする。In step 13-12, the conversion candidate indicated by j is set as a second adopted conversion candidate.
ステツプ13−13において採用文節数を2に代入してリ
ターンする。In step 13-13, the number of employed phrases is substituted for 2, and the routine returns.
ステツプ13−14では採用文節数を0に設定してリター
ンする。In steps 13-14, the number of employed phrases is set to 0, and the routine returns.
第14図はステツプ9−4「区切り変更」を詳細化した
フローチヤートである。FIG. 14 is a flowchart showing the details of step 9-4 "Change break".
ステツプ14−1において、入力キーが区切り縮小キー
であるか区切り伸長キーであるかに応じて、区切り縮小
または区切り伸長の処理を実行する。この処理は現実に
日本語ワードプロセツサ等において実現されており、公
知の技術であるの特に記述しない。In step 14-1, the process of decompressing or decompressing is executed according to whether the input key is a decompression / reduction key or a decompression / expansion key. This processing is actually realized in a Japanese word processor or the like, and is a well-known technique, and will not be described.
ステツプ14−2において、区切り変更前の2文節分の
読みの読み数を取り出しL1に代入する。In step 14-2, is substituted for L 1 Retrieves the number readings readings 2 clause minutes before delimiting changes.
ステツプ14−3において、区切り変更後の2文節分の
読みの読み数を取り出しL2に代入する。In step 14-3, and assigned to the L 2 taken out number reading readings 2 clause content after separator changes.
ステツプ14−4において、先に求めたL1とL2の値を比
較し、もし、L1>L2であれば、すなわち、区切り変更前
の2文節分の読み数が長ければ、ステツプ14−5に分岐
する。L1≦L2であれば、すなわち、区切り変更後の2文
節分の読み数が長ければ、ステツプ14−6に分岐する。In step 14-4, it compares the values of L 1 and L 2 obtained above, if, when the L 1> L 2, i.e., the longer the number reading 2 clause minutes before delimiting change, step 14 Branch to -5. If L 1 ≦ L 2, i.e., the longer the number reading 2 clause content after delimiting change, the process branches to step 14-6.
ステツプ14−5において区切り変更前の2文節分の読
みを区切り学習データ登録のための「読み」とする。In step 14-5, the readings of the two phrases before the change of the delimiter are defined as "readings" for registering the delimiter learning data.
ステツプ14−6において区切り変更後の2文節分の読
みを区切り学習データ登録のための「読み」とする。In step 14-6, the readings of the two phrases after the change of the delimiter are defined as "readings" for registering the delimiter learning data.
ステツプ14−7において、区切り変更後の第1文節の
読み数を区切り学習データ登録のための「第1文節読み
数」とする。In step 14-7, the number of readings of the first phrase after the change of the delimiter is set as the "first phrase reading number" for registering the delimiter learning data.
ステツプ14−8において、区切り変更後の第2文節の
読み数を区切り学習データ登録のための「第2文節読み
数」とする。In step 14-8, the number of readings of the second phrase after the change of the delimiter is set as the "number of second phrase readings" for registering the delimiter learning data.
ステツプ14−9において、上記設定された通りに区切
り学習データを登録する。At step 14-9, the delimiter learning data is registered as set above.
ステツプ14−10において、上記登録した区切り学習デ
ータと矛盾する区切り学習データをサーチし、もし矛盾
する区切り学習データが見つかればそれを削除する。矛
盾する区切り学習データとは、以下の学習データのこと
である。In step 14-10, search is made for delimiter learning data inconsistent with the registered delimiter learning data, and if inconsistent delimiter learning data is found, it is deleted. The contradictory delimiter learning data is the following learning data.
登録区切り学習データ「読み」と一致する「読み」を
もつ、または、登録区切り学習データ「読み」よりも長
く入力読みと一致する区切り学習 かつ 登録区切り学習データと文節分割が一致しないとき、
すなわち、「第1文節読み数」または「第2文節読み
数」が一致しない区切り学習 この矛盾区切り学習データ削除処理により、学習効果
の得られなくなる場合が発生するのを防いでいる。If there is a "reading" that matches the registered delimiter learning data "reading", or the delimiter learning matches the input reading longer than the registered delimited learning data "reading", and the registered delimiter learning data does not match the segmentation,
That is, segmentation learning in which "the number of first segment readings" or "the number of second segment readings" do not match This inconsistency segmentation learning data deletion process prevents a case where a learning effect cannot be obtained.
[他の実施例] 以上の説明においては、区切り学習データが登録され
るタイミングとして、区切り変更をオペレータが明に指
定した場合、すなわち、区切り縮小キー、区切り伸長キ
ーを操作した場合について説明した。しかしオペレータ
が区切り変更の方法を知らず、誤分割の変換結果が提示
された時、入力読み列を次回は細かく分割して変換する
可能性も考えられ、この場合にも区切り学習を行なう必
要性がある。上記の場合にも区切り学習を行なうように
構成した実施例を以下に述べる。[Other Embodiments] In the above description, the case where the break change is explicitly specified by the operator as the timing at which the break learning data is registered, that is, the case where the break reduction key and the break expansion key are operated has been described. However, when the operator does not know the method of changing the delimiter and the conversion result of the erroneous division is presented, it is possible that the input reading sequence may be finely divided next time and converted. is there. An embodiment in which the segmentation learning is performed in the above case will be described below.
第15図は、上記に説明したオペレータの入力の例であ
る。(a)はテキスト画面上に既に「その」が入力され
ているの状態であり、オペレータは更に「問題に関して
以下の合意が得られた」と入力しようとしている。とこ
ろが、前回読みを続けて入力し誤変換されてしまったの
で、今回は入力単位を細かく分割することにし、「もん
だいにかんして/」と入力して変換を起動した。する
と、(b)の様に、正しく「問題に関して」と変換され
る。次に(c)のように「いかのごういがえられた/」
と入力する。その結果、(d)に示すように「以下の合
意が得られた」と変換される。この一連の動作を行なう
ことにより、「関して/以下の」の部分について区切り
学習が行なわれ、次回に、もし、「もんだいにかんして
いかのごういがえられた」と入力すれば正しく「問題に
関して以下の合意が得られた」と変換されるようにな
る。FIG. 15 is an example of the operator input described above. (A) shows a state in which “that” has already been input on the text screen, and the operator is further trying to input “the following agreement has been obtained regarding the problem”. However, since the input was repeated last time and the input was incorrectly converted, this time, the input unit was finely divided, and the conversion was started by inputting "//". Then, as shown in (b), it is correctly converted to "about a problem". Next, as shown in (c), "I got a squid /"
Enter As a result, as shown in (d), it is converted to "the following agreement has been obtained". By performing this series of operations, the segmentation learning is performed for the part "about / below", and the next time, if "input is completed" is correctly input "The following agreement has been reached on the matter."
第10図で示した「仮名漢字変換」のフローチヤートは
第16図に示す様に変更される。The flow chart of “Kana-Kanji conversion” shown in FIG. 10 is changed as shown in FIG.
ステツプ16−1においてKBBUF上にある入力読み列を
単語辞書、文法辞書等を参照して形態素解析、構文解析
等を行ない、変換候補テーブルHENTBLを作成する。In step 16-1, morphological analysis, syntax analysis, and the like are performed on the input reading sequence on the KBBUF with reference to a word dictionary, a grammar dictionary, and the like, to create a conversion candidate table HENTBL.
ステツプ16−2において、第11図に詳述するように、
上記変換候補のうちどの変換候補を変換すべきか、第1
候補を決定する。In step 16-2, as described in detail in FIG.
Which of the above conversion candidates is to be converted,
Determine candidates.
ステツプ16−3において、今回の変換は前文節の変換
直後であるかどうかを判定する。変換直後であれば、ス
テツプ16−4に進み、区切り学習データの登録処理を行
なうことになる。直後でなければステツプ16−9に分岐
し、区切り学習データの登録処理をスキツプする。In step 16-3, it is determined whether or not the current conversion is immediately after the conversion of the previous phrase. If it is immediately after the conversion, the process proceeds to step 16-4, and the registration processing of the segmented learning data is performed. If it is not immediately after, the process branches to step 16-9 to skip the registration process of the delimiter learning data.
ステツプ16−4において、記憶されていた前回変換の
文節の読みを取り出し、今回の変換される先頭文節の読
みとマージし、区切り学習データ登録用の「読み」とす
る。In step 16-4, the stored reading of the phrase of the previous conversion stored is taken out and merged with the reading of the head phrase to be converted this time, and is set as the "reading" for registering the delimiter learning data.
ステツプ16−5において、前回変換された文節の読み
数を取り出し、区切り学習データ登録用の「第1文節読
み数」とする。In step 16-5, the number of readings of the phrase converted last time is taken out and set as "the first number of readings of the phrase" for registering the segmented learning data.
ステツプ16−6において今回変換される先頭文節の読
み数を取り出し、区切り学習データ登録用の「第2文節
読み数」とする。In step 16-6, the number of readings of the first phrase to be converted this time is taken out and set as the "second phrase reading number" for registering the delimiter learning data.
ステツプ16−7において上記設定された通りに区切り
学習データを登録する。In step 16-7, the delimiter learning data is registered as set above.
ステツプ16−8において、上記登録された区切り学習
データと矛盾する区切り学習データをサーチし、もし矛
盾する区切り学習データが見つかればそれを削除する。In step 16-8, search is made for the delimiter learning data inconsistent with the registered delimiter learning data, and if contradictory departure learning data is found, it is deleted.
ステツプ16−10において、決定された第1候補(採用
文節)を1文節ずつ漢字仮名混り文に変換していく。In step 16-10, the determined first candidate (adopted phrase) is converted into a sentence mixed with kanji and kana one by one.
ステツプ16−11において作成された変換文字列を文書
にセツトする。更に文書の変更内容が分かるように変換
文字列がセツトされた付近を表示する。The converted character string created in step 16-11 is set in the document. Further, the vicinity where the converted character string is set is displayed so that the contents of the change of the document can be understood.
[発明の効果] 以上説明したように、本発明によれば、変更後の区切
り位置前後の2文節を含む読みと、該読みにおける当該
2文節の各文節の区切り方とを区切り学習データとして
登録しておき、入力された読みが区切り学習データと一
致する読みを含む場合、該読みを当該区切り学習データ
の表わす2文節の各文節の区切り方に基づいて変換し、
前記入力された読みが前記区切り学習データと一致する
読みを含まない場合、当該入力された読みを当該区切り
学習データによらずに変換するようにしたので、区切り
学習データを利用することで、変更された区切り位置前
後の2文節分の読みを以後正しく変換できるようになる
とともに、変更された区切り位置前後の2文節分の読み
以外の読みに対しては誤変換を生じさせる副作用が少な
いので、文章全体の変換率を向上させることができると
いう効果がある。[Effects of the Invention] As described above, according to the present invention, a reading including two phrases before and after a changed delimiter position and a method of delimiting each of the two phrases in the read are registered as delimiter learning data. In addition, if the input reading includes a reading that matches the delimiter learning data, the reading is converted based on the delimiter of each of the two phrases represented by the delimiter learning data,
When the input reading does not include a reading that matches the delimiter learning data, the input reading is converted without relying on the delimiter learning data. Since the readings of the two phrases before and after the delimited position can be correctly converted thereafter, and there is little side effect of causing erroneous conversion for the readings other than the reading of the two phrases before and after the delimited position, There is an effect that the conversion rate of the entire sentence can be improved.
第1図は本発明の全体構成のブロツク図 第2図はCRTの画面構成を示した図 第3図は本発明における区切り伸長の操作方法を示した
図 第4図は本発明における区切り縮小の操作方法を示した
図 第5図は区切り学習データKULDTの構成を示した図 第6図は仮名漢字変換を行なう際に、処理途中で解析さ
れる文節候補の例を示した図 第7図は変換候補テーブルHENTBLの構成を示した図 第8図はキーボードバツフアKBBUFの構成を示した図 第9図〜第14図は本発明文字処理装置の動作を示すフロ
ーチヤート 第15図は本発明の表示例を示す図 第16図は本発明の動作の制御手順を示すフローチヤート DISK……外部記憶 CPU……マイクロプロセツサ ROM……読出し専用メモリ RAM……ランダムアクセスメモリ KBBUF……キーボードバツフア KULDT……区切り学習データ HENTBL……変換候補テーブルFIG. 1 is a block diagram of the overall configuration of the present invention. FIG. 2 is a diagram showing a screen configuration of a CRT. FIG. 3 is a diagram showing a method of operating the decompression and expansion in the present invention. FIG. 5 shows an example of a phrase candidate analyzed in the middle of processing when performing kana-kanji conversion. FIG. 7 shows an example of a phrase candidate. FIG. 8 shows the structure of the conversion buffer table HENTBL. FIG. 8 shows the structure of the keyboard buffer KBBUF. FIGS. 9 to 14 are flowcharts showing the operation of the character processing apparatus of the present invention. FIG. 16 is a flowchart showing a display example. FIG. 16 is a flowchart showing a control procedure of the operation of the present invention. DISK... External storage CPU... Microprocessor ROM... Read-only memory RAM... Random access memory KBBUF. …… Separated learning data HE NTBL …… Conversion candidate table
Claims (12)
換する変換手段と、 該変換手段により変換された漢字仮名混じり文の文節の
区切り位置を変更する区切り変更手段と、 区切り学習データを記憶する記憶手段と、 前記区切り変更手段による変更後の区切り位置前後の2
文節を含む読みと、該読みにおける当該2文節の各文節
の区切り方とを区切り学習データとして前記記憶手段に
登録する登録手段と、 前記入力手段より入力された読みが前記記憶手段に記憶
された区切り学習データと一致する読みを含む場合、該
読みを当該区切り学習データの表わす2文節の各文節の
区切り方に基づいて変換し、前記入力された読みが前記
区切り学習データと一致する読みを含まない場合、当該
入力された読みを当該区切り学習データによらずに変換
するように、前記変換手段を制御する制御手段とを備え
たことを特徴とする文字処理装置。An input means for inputting a reading, a converting means for converting a reading input from the input means into a sentence mixed with kanji kana, and a delimiter position of a phrase of the sentence mixed with kanji kana converted by the converting means. Delimiter changing means to be changed; storage means for storing delimiter learning data;
Registration means for registering in the storage means a reading including a phrase and how to separate each of the two phrases in the reading as delimiter learning data; and a reading input from the input means being stored in the storage means. If the reading includes a reading that matches the delimiter learning data, the reading is converted based on how to separate each of the two phrases represented by the delimiter learning data, and the input reading includes a reading that matches the delimiter learning data. A character processing device comprising: a control unit that controls the conversion unit so that the input reading is converted without using the delimiter learning data when there is no reading.
数の区切り学習データと一致する読みを含む場合、該読
みを最長一致する区切り学習データの表わす2文節の各
文節の区切り方に基づいて変換するように、前記変換手
段を制御することを特徴とする請求項1記載の文字処理
装置。2. The method according to claim 1, wherein when the input reading includes a reading that matches a plurality of delimiter learning data, the control unit determines the reading based on how to separate each of the two phrases represented by the longest matching delimiter learning data. 2. The character processing device according to claim 1, wherein said conversion means is controlled so as to perform conversion.
おける読みとして、変更前あるいは変更後の区切り位置
前後の2文節分の読みのうち、長い方の読みを登録する
ことを特徴とする請求項1記載の文字処理装置。3. The method according to claim 2, wherein the registering means registers, as the reading in the segmented learning data, a longer one of two phrases before and after the changed segmentation position. 2. The character processing device according to 1.
する際に、該区切り学習データと矛盾する他の区切り学
習データを前記記憶手段より削除すること特徴とする請
求項1記載の文字処理装置。4. The character processing apparatus according to claim 1, wherein when registering the delimiter learning data, the registration means deletes other delimiter learning data inconsistent with the delimiter learning data from the storage means. .
おける区切り位置の前後2文節の各文節の区切り方とし
て、当該2文節の各文節の長さを規定する文字数を登録
することを特徴とする請求項1記載の文字処理装置。5. The method according to claim 1, wherein the registering means registers the number of characters defining the length of each of the two clauses as the way of dividing each of the two clauses before and after the delimiter position in the delimiter learning data. The character processing device according to claim 1.
力手段により新たな読みを入力して当該変換手段により
変換を行なった場合に、先の変換結果の末尾の文節と後
の変換結果の先頭の文節とを合わせた2文節分の読み
と、該読みにおける当該2文節の各文節の区切り方とを
区切り学習データとして前記記憶手段に登録する第2の
登録手段を備えたことを特徴とする請求項1記載の文字
処理装置。6. When a new reading is input by the input means and conversion is performed by the conversion means following the conversion by the conversion means, the last sentence of the conversion result and the conversion result of the subsequent conversion result are obtained. A second registration unit for registering in the storage unit the reading of two phrases including the first phrase and the method of delimiting each of the two phrases in the reading as delimiter learning data; The character processing device according to claim 1.
する変換工程と、 該変換工程により変換された漢字仮名混じり文の文節の
区切り位置を変更する区切り変更工程と、 該区切り変更工程による変更後の区切り位置前後の2文
節を含む読みと、該読みにおける当該2文節の各文節の
区切り方とを区切り学習データとして区切り学習データ
記憶部に登録する登録工程とを備え、 前記変換工程においては、前記入力工程より入力された
読みが前記区切り学習データ記憶部に記憶された区切り
学習データと一致する読みを含む場合、該読みを当該区
切り学習データの表わす2文節の各文節の区切り方に基
づいて変換し、前記入力された読みが前記区切り学習デ
ータと一致する読みを含まない場合、当該入力された読
みを当該区切り学習データによらずに変換することを特
徴とする文字処理方法。7. An input step of inputting a reading, a conversion step of converting the reading input in the input step into a sentence mixed with kanji kana, and a delimiter position of a phrase of the sentence mixed with kanji kana converted by the conversion step. A delimiter change data to be changed, a reading including two phrases before and after the delimiter position after the change by the delimiter change process, and a method of delimiting each of the two phrases in the reading are stored in the delimiter learning data storage unit as delimiter learning data. A registration step of registering. In the converting step, when the reading input from the input step includes a reading that matches the delimiter learning data stored in the delimiter learning data storage unit, the reading is performed by the delimiter learning. If the input reading does not include a reading that matches the delimiter learning data, the conversion is performed based on the method of delimiting each of the two phrases represented by the data. A character processing method characterized in that input reading is converted without depending on the delimiter learning data.
読みが複数の区切り学習データと一致する読みを含む場
合、該読みを最長一致する区切り学習データの表わす2
文節の各文節の区切り方に基づいて変換することを特徴
とする請求項7記載の文字処理方法。8. In the converting step, when the input reading includes a reading that matches a plurality of segment learning data, the reading indicates the longest matching segment learning data.
8. The character processing method according to claim 7, wherein the conversion is performed on the basis of how each of the clauses is separated.
における読みとして、変更前あるいは変更後の区切り位
置の前後2文節分の読みのうち、長い方の読みを登録す
ることを特徴とする請求項7記載の文字処理方法。9. In the registering step, as a reading in the delimiter learning data, a longer one of two readings before and after the delimiter position before and after the change is registered. 7. The character processing method according to item 7.
登録する際に、該区切り学習データと矛盾する他の区切
り学習データを前記区切り学習データ記憶部より削除す
ること特徴とする請求項7記載の文字処理方法。10. The registration step according to claim 7, wherein when registering the delimiter learning data, other departure learning data inconsistent with the delimiter learning data is deleted from the delimiter learning data storage unit. Character processing method.
タにおける区切り位置の前後2文節の各文節の区切り方
として、当該2文節の各文節の長さを規定する文字数を
登録する請求項7記載の文字処理方法。11. The method according to claim 7, wherein, in the registering step, the number of characters defining the length of each of the two clauses is registered as a way of dividing each of the two clauses before and after the break position in the break learning data. Character processing method.
入力工程により新たな読みを入力して当該変換工程によ
り変換を行なった場合に、先の変換結果の末尾の文節と
後の変換結果の先頭の文節とを合わせた2文節分の読み
と、該読みにおける当該2文節の各文節の区切り方とを
区切り学習データとして前記区切り学習データ記憶部に
登録する第2の登録工程を備えたことを特徴とする請求
項7記載の文字処理方法。12. After the conversion in the conversion step, when a new reading is input in the input step and the conversion is performed in the conversion step, the last sentence of the conversion result and the conversion of the subsequent conversion result are obtained. A second registration step of registering in the delimiter learning data storage unit the two phrase readings including the first phrase and the method of delimiting each of the two phrases in the reading as delimiter learning data. 8. The character processing method according to claim 7, wherein:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63041594A JP3029109B2 (en) | 1988-02-23 | 1988-02-23 | Character processing apparatus and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP63041594A JP3029109B2 (en) | 1988-02-23 | 1988-02-23 | Character processing apparatus and method |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH01214967A JPH01214967A (en) | 1989-08-29 |
JP3029109B2 true JP3029109B2 (en) | 2000-04-04 |
Family
ID=12612730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP63041594A Expired - Fee Related JP3029109B2 (en) | 1988-02-23 | 1988-02-23 | Character processing apparatus and method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3029109B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3466761B2 (en) * | 1995-03-31 | 2003-11-17 | キヤノン株式会社 | Document processing apparatus and control method thereof |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS61156467A (en) * | 1984-12-28 | 1986-07-16 | Ricoh Co Ltd | Word extract system |
JPS61173377A (en) * | 1985-01-29 | 1986-08-05 | Matsushita Electric Ind Co Ltd | Forming device of japanese sentence |
JPS62145463A (en) * | 1985-12-20 | 1987-06-29 | Ricoh Co Ltd | Kana/kanji (japanese syllabary/chinese character) conversion system |
-
1988
- 1988-02-23 JP JP63041594A patent/JP3029109B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH01214967A (en) | 1989-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5418718A (en) | Method for providing linguistic functions of English text in a mixed document of single-byte characters and double-byte characters | |
CA2145668A1 (en) | Text input transliteration system | |
JPH07114568A (en) | Data retrieval device | |
EP0265280B1 (en) | Machine translation system and method | |
JP3029109B2 (en) | Character processing apparatus and method | |
JPS6210763A (en) | Kana to kanji conversion system | |
JP2744241B2 (en) | Character processor | |
JP3443239B2 (en) | Character processor | |
JP2771020B2 (en) | Character processor | |
JPH10187705A (en) | Method and device for document processing | |
JPH10187700A (en) | Document processor | |
JPH0638260B2 (en) | Character processing apparatus and method | |
JPH0769908B2 (en) | Document processor | |
JPH0638261B2 (en) | Character processing apparatus and method | |
JPH0793366A (en) | Character processor | |
JPS62198952A (en) | Character processor | |
JPS62198953A (en) | Character processor | |
JPS63261454A (en) | Document processor | |
JPH0816908B2 (en) | Character processing device and character processing method | |
JPH08194698A (en) | Character processor | |
JPH0512251A (en) | Document processor | |
JPH0576064B2 (en) | ||
JPH0877159A (en) | Learning method | |
JPH08241315A (en) | Word registering mechanism for document processor | |
JPH0488550A (en) | Character processor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |