JP3524189B2 - 文字処理装置 - Google Patents
文字処理装置Info
- Publication number
- JP3524189B2 JP3524189B2 JP01401395A JP1401395A JP3524189B2 JP 3524189 B2 JP3524189 B2 JP 3524189B2 JP 01401395 A JP01401395 A JP 01401395A JP 1401395 A JP1401395 A JP 1401395A JP 3524189 B2 JP3524189 B2 JP 3524189B2
- Authority
- JP
- Japan
- Prior art keywords
- adjunct
- word
- stored
- dictionary
- kana
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
字仮名混じり文を出力する文字処理装置に関する。
とにより、入力された読み列を漢字に変換するものであ
る。自立語辞書においては、各単語に対して名詞、サ変
名詞、副詞、動詞、形容詞、形容動詞などの品詞情報が
記述されており、付属語辞書においては、その付属語の
文法情報が記述されている。また、付属語同士の連接
や、自立語と付属語の連接の、可能/不可能を記述した
連接判定テーブルが準備されていて、かな漢字変換は、
各種辞書やテーブルを参照しつつ、入力された読み列を
漢字に変換していく。
に対しては、「市」「白」「城」「白に」「城に」「白
にと」「城にと」「白にとの」「城にとの」「白にとの
が」「城にとのが」、「炉」「露」「炉に」…、「二」
「似」「荷」「煮」「二と」…、「都」「戸」「都の」
「殿」「戸の」「都のが」「殿が」…、「いる」「居
る」「要る」「煎る」…等の文節の候補を作成し、これ
らを組み合わせた結果、一般には文節数が最小となる組
み合わせが優先され、「白にとのが/いる」「城にとの
が/いる」といった、2文節で構成される変換結果が優
先され、「城に/殿が/いる」といった変換結果は、3
文節で構成されるため、第1候補として、出力されるこ
とがなかった。
も上記の例においては、「白にとのが」「城にとのが」
といった文節が生成されることに問題がある。
「と」、「と」+「の」、「の」+「が」が、それぞれ
連接可能であると定義されている。「白に」「私にと」
「彼との」「彼女のが」という文節を考えて見ると、確
かに、それぞれを連接可能とすることは正しい。しかし
ながら、この方法では、名詞+「に」+「と」+
「の」、さらには、名詞+「に」+「と」+「の」+
「が」が連接可能となってしまう。
ついては、連接を禁止する定義がなされておらず、連接
を禁止することが不可能な構成であり、無意味な文節を
生成していた。
来の問題を解決し、付属語の連接関係を付属語列として
記述し、付属語列を付属部辞書に格納し、付属語同士の
連接判定テーブルは用いない構成とすることによって、
無意味な付属語列、さらには無意味な文節を生成しない
仮名漢字変換を提供することを目的とする。
おいて付属語列を付属部辞書に格納したのと同様に、付
属語と自立語が連接した状態で構成される言い回しを、
1つの付属部として付属語辞書に格納することによっ
て、優先して仮名漢字変換される付属部を格納すること
を目的とする。
よび(課題2)において、付属部辞書に格納した付属語
列や言い回しに、優先度情報を付加することにより、付
属語列として使用された時の頻度や、言い回しとしての
頻度を考慮した、精度の高い仮名漢字変換を提供するこ
とを目的とする。
に、本発明の文字処理装置は、仮名文字列を入力するた
めの、入力手段と、単語の読みと、表記および品詞など
の文法情報とを対応づけて記憶した単語辞書手段と、助
詞や助動詞などの付属語を、その読みと表示および文法
情報とを対応づけて記憶した付属部辞書手段と、前記入
力手段により入力された仮名文字列を、前記単語辞書手
段および前記付属部辞書手段を参照して、対応する表記
に変換するかな漢字変換手段とを有し、前記付属部辞書
手段に、単一の付属語とともに、連接して使用可能な付
属語列を1つの付属部として格納し、前記仮名漢字変換
手段による変換において、付属部同士を非連接とするこ
とを特徴とする。
て、さらに、前記付属部辞書手段に、付属語および付属
語列とともに、付属語と自立語との連接により構成され
る言い回しを1つの付属部として格納することを特徴と
する。
いて、さらに、前記付属部辞書手段に格納される各付属
部には、優先度情報を対応づけて記憶することを特徴と
する。
な付属語列を1つの付属部として格納し、付属部同士は
非連接とすることで、無意味な付属語列が生成されるこ
とを防止することができる。
付属語と自立語との連接で構成される言い回しを1つの
付属部として格納することにより、当該言い回しが優先
して変換される。
て、付属部辞書手段に格納した付属語列や言い回しに、
優先度情報を付加して格納することにより、優先度の高
い付属語列や言い回しが優先して変換される。
する。
ック図である。
プロセッサであり、文字処理のための演算、論理判断等
を行ない、アドレスバスAB、コントロールバスCB、
データバスDBを介して、それらのバスに接続された各
構成要素を制御する。
PUの制御の対象とする構成要素を指示するアドレス信
号を転送する。コントロールバスCBはマイクロプロセ
ッサCPUの制御の対象とする各構成要素のコントロー
ル信号を転送して印加する。データバスDBは各構成機
器相互間のデータ転送を行なう。
ある。ROMに設けられているPAは、図8〜図11に
つき後述するマイクロプロセッサCPUによる制御の手
順を記憶させたプログラムエリアである。
成の書き込み可能のランダムアクセスメモリであって、
各構成要素からの各種データの一時記憶に用いる。RA
Mには以下に説明するJDIC、FDIC、CTBL、
IBUF、OBUF、BTBLが格納されている。
の自立部を格納したものであり、詳細は図2を用いて後
述する。
の付属部を格納したものであり、詳細は図3を用いて後
述する。
付属部の連接可否の情報を格納したものであり、詳細は
図4を用いて後述する。
たキーデータを記憶する入力バッファであり、詳細は図
5(a)を用いて後述する。
された結果を一時的に記憶するバッファであり、詳細は
図5(b)を用いて後述する。
た仮名文字列をかな漢字変換して、出力を決定する段階
において使用されるバッファであり、かな漢字変換の途
中結果を格納する。詳細は図6及び図7を用いて後述す
る。
トキー、ひらがなキー、カタカナキー等の文字記号入力
キー、及び、カーソル移動を指示するカーソル移動キー
や各種のファンクションキーを備えている。
外部メモリである。文書データ等は必要に応じて保管さ
れ、また、保管されたデータはキーボードの指示によ
り、必要な時呼び出される。
より、カーソルレジスタの内容を読み書きできる。後述
するCRTコントローラCRTCは、ここに蓄えられた
アドレスに対応する表示装置CRT上の位置にカーソル
を表示する。
すべきデータのパターンを蓄える。
ルレジスタCR及びバッファDBUFに蓄えられた内容
を表示器CRTに表示する役割を担う。
であり、その表示装置CRTにおけるドット構成の表示
パターンおよびカーソルの表示をCRTコントローラで
制御する。
あって、表示装置CRTに表示する文字、記号のパター
ンを記憶するものである。
装置においては、キーボードKBからの各種の入力に応
じて作動するものであって、キーボードKBからの入力
が供給されると、まず、インタラプト信号がマイクロプ
ロセッサCPUに送られ、そのマイクロプロセッサCP
UがROM内に記憶してある各種の制御信号を読出し、
それらの制御信号に従って、各種の制御が行なわれる。
に格納される自立部辞書データの構成を示す図である。
から構成される。
記、品詞には単語の品詞が格納される。優先度は、頻度
情報などを考慮して与えられる、当該単語が優先的に使
用される度合いである。優先度=5は、普通に優先され
るという意味であり、5以上だと普通よりさらに優先さ
れ、5より小さい単語は、普通の単語より優先されない
ことを意味する。
に格納される付属部辞書データの構成を示す図である。
ルドから構成される。
表記が格納される。文法情報には付属部の文法情報が格
納され、後述する連接判定テーブルへリンクしている。
優先度は、頻度情報などを考慮して与えられる、当該付
属語が優先的に使用される度合いである。優先度=5
は、普通に優先されるという意味であり、5以上だと普
通よりさらに優先され、5より小さい単語は、普通の付
属語より優先されないことを意味する。
TBLの構成を示す図である。品詞と、付属部の文法情
報を軸とする表の構造をしている。表内の数字は、連接
強度であり、連接の強さを示すものである。5は普通の
連接強度であり、5より大きい場合は、強い連接を示
し、5より小さい場合は、弱い連接であることを示して
いる。また、連接強度が0というのは、連接しないこと
を意味している。例えば、「名詞」と「助詞−と」は、
連接強度5なので、連接の強さは普通である。また、
「動詞終止形」と「助動詞−です」は、連接強度0なの
で、連接しない。すなわち、「動詞終止形」+「助動詞
−です」といった文節は成り立たないということであ
る。
(a)は入力バッファIBUF、(b)は出力バッファ
OBUFの構成を示した図である。IBUF、OBUF
ともに同じ構成である。最初の2バイトは各バッファの
サイズ情報であり、バッファに格納されている文字数が
格納されている。各文字は1文字2バイトで構成され、
JIS X0208コード等で格納される。
示した図である。BTBLは、かな漢字変換の途中結果
を格納するものであり、入力バッファに格納された仮名
文字列を、形態素解析を行い、考えられる解析パターン
をすべて格納する。BTBLはツリー構造をしており、
ノードには文節を格納するものとする。同じ形態の文節
は1つのノードにまとめて格納されることもある。例で
は、「しろにとのがいる」を解析した結果であり、「城
にと/野が/いる」を初め、「白/煮/都のが/要る」
といった、数多くの解析パターンが存在している。
TBLの構成を示した図である。当該例では、入力バッ
ファに格納された文字列が「みようとつとめる」であっ
た場合の例である。
納された手順の動作をフローに従って説明する。
ローチャートである。
のいろいろな初期設定を行う処理であり、同種の文字処
理装置において一般に行われている処理である。処理を
終えると、ステップ8−2へ進む。
を取り込む処理である。
を判定し、各キーの処理ルーチンに分岐する。
に分岐する。
に分岐し、図9にて後述する変換処理を行う。
ップ8−6に分岐し、文字の入力や、カーソル移動、挿
入、削除等の通常の文字処理装置において行なわれるそ
の他の処理が行なわれる。これらの処理は同種の文字処
理装置において、一般に行われている処理であり、公知
であるので特に記述しない。
かな漢字変換の読みとなるキーが入力されると、入力バ
ッファIBUFに文字を格納する処理である。
プ8−6のそれぞれの処理を終ると、ステップ8−2へ
進み、再びキー入力待ちとなる。
細化したフローチャートである。
処理であり、入力バッファIBUFに格納される読みを
もとに、図6あるいは図7で示したような文節候補テー
ブルBTBLを作成する。作成処理の詳細は、図10で
説明する。
り、図6あるいは図7で示したような文節候補テーブル
BTBLに格納された解析結果のなかから、もっとも優
先して変換させたい候補を決定する。決定の方法として
は、さまざまな方法が考えられるが、ここでは、文節数
最小法と、自立語の優先度および、付属部の優先度を組
み合わせて決定するものとする。図6の場合、まず、文
節数が最小となるような候補に絞る。そうすると、3文
節に構成される、 「{城にと,白にと}+{野が}+{いる,要る}」、
「{城に,白に}+{殿が,都のが}+{いる,要
る}」、「{城,白}+{荷とのが,煮とのが}+{い
る,要る}」の候補に絞られる。
きいものを採ると、「城」>「白」、「いる」>「要
る」、「殿」=「都」、「荷」>「煮」であるから、 「城にと+野が+いる」、「城に+{殿が,都のが}+
いる」、「城+荷とのが+いる」に絞ることが出来る。
を採ると、「が」>「のが」であるから、 「城にと+野が+いる」、「城に+殿が+いる」、「城
+荷とのが+いる」に絞られる。
の優先度+付属部の優先度)/2(ただし、付属部が存
在しない文節は自立部の優先度が文節の優先度とな
る。)で計算する。上記の3つの文の、文節の優先度の
合計は、それぞれ、 「城にと+野が+いる」→5+6+5=16、 「城に+殿が+いる」→6+6+5=17、 「城+荷とのが+いる」→5+4+5=14 となり、「城に+殿が+いる」を第1候補に決定する。
に絞った時点で、「見ようと努める」を第1候補に決定
することができる。
る。ステップ9−2において決定した第1候補を出力バ
ッファOBUFに格納する。
である。入力バッファIBUFの内容を消去し、次回の
読みキー入力のために備える。処理を終えると、リター
ンする。
ブル作成処理」を詳細化したフローチャートである。
する処理である。カウンタiは、入力バッファIBUF
の読み文字列のi番目の文字を指すカウンタであり、最
初は、1文字目を指すために、1をセットする。
る。入力バッファIBUFのi番目の読みを先頭読みと
して、それ以降の読みから、文節を解析して、文節候補
テーブルを作成する。詳細は、図11にて説明する。
理」を詳細化したフローチャートである。
る処理である。入力バッファIBUFのi番目の読み以
降の文字をキーとして、自立部辞書JDICを検索し、
部分一致する自立部を検出する。
プ11−1で検出した自立部の数を格納する。
タiにステップ11−1で検出した自立部のj番目の自
立部の読みの文字数を足して代入する。即ち、カウンタ
kは、入力バッファIBUFのk番目の読み文字を指し
ていることになる。
る処理である。入力バッファIBUFのk番目の読み文
字以降の文字をキーとして、付属部辞書FDICを検索
し、部分一致する付属部を検出する。
は、ステップ11−4において、処理をステップ11−
7に進め、検出できた場合には処理を、ステップ11−
6に進める。
直前の自立部との連接可否を判定する処理である。判定
には図4に示した連接判定テーブルCTBLが用いられ
る。連接不可能な場合には、処理をステップ11−4に
戻して、再び付属部辞書を検索する。連接可能な場合に
は、処理をステップ11−7に進める。
る。直前に検出した自立部と付属部を組み合わせた文字
列を文節として、文節候補テーブルのノードに登録す
る。
Fの処理すべき読み先頭文字を更新する処理である。即
ち、直前に処理した自立部の先頭位置kに付属部の読み
数を足し込んだものをカウンタiに格納する。
Fに格納されている文字数と、カウンタiを比較する処
理である。入力バッファIBUFに格納されている文字
数が、カウンタiより小さい場合には、入力バッファに
格納されている読みを全て処理したことになるので、当
該処理をリターンする。そうでない時には、未処理の読
みが残っているということなので、処理をステップ11
−10に進める。
る。文節解析処理は、まさしく図11に示す当該処理で
あり、再帰的にコールすることが可能である。このステ
ップにおいて、文節解析処理をコールすることは、入力
バッファのi番目の読み以降の読み列に対して、文節解
析を行うことを意味する。ステップ10−2においてコ
ールした時には、iが1にセットされていたが、当該ス
テップでコールする場合は、iが更新されている。
処理である。ひとつの自立部に対する処理を終了したの
で、カウンタjを1だけ減じる。
の自立部の存在を判定する処理である。まだ、未処理の
自立部が存在する場合には、処理をステップ11−3に
進める。そうでない場合には、当該処理をリターンす
る。
るものではない。
おいて、文節数最小法と、自立語の優先度および、付属
部の優先度を組み合わせて決定するものとしたが、この
ような方法に限定するものではない。例えば、連接判定
テーブルに準備した連接強度の加味した計算式で決定す
る構成としてもよい。
囲で種々変形して実施することができる。
よれば、 (1)付属部辞書に連接可能な付属語列を1つの付属部
として格納し、付属部同士は非連接とすることにより、
無意味な付属語の連接がなくなり、精度の高いかな漢字
変換が実現できる; (2)さらに、上記に加えて、付属部辞書に付属語と自
立語との連接で構成される言い回しを格納することによ
り、精度の高いかな漢字変換が実現できる; (3)さらに、上記効果に加えて、前記付属部辞書手段
に格納される各付属部には、優先度情報を対応づけて記
憶することにより、付属部の優先度を有効に活用した、
精度の高いかな漢字変換が実現できる;という効果があ
る。
である。
示した図である。
示した図である。
成例を示した図である。
バッファの構成例を示した図である。
成例を示した図である。
成例を示した図である。
示すフローチャートである。
フローチャートである。
成処理の動作を示すフローチャートである。
を示すフローチャートである。
Claims (3)
- 【請求項1】 仮名文字列を入力するための、入力手段
と、 単語の読みと、表記および品詞などの文法情報とを対応
づけて記憶した単語辞書手段と、 助詞や助動詞などの付属語を、その読みと表示および文
法情報とを対応づけて記憶した付属部辞書手段と、 前記入力手段により入力された仮名文字列を、前記単語
辞書手段および前記付属部辞書手段を参照して、対応す
る表記に変換するかな漢字変換手段とを有し、 前記付属部辞書手段に、単一の付属語とともに、連接し
て使用可能な付属語列を1つの付属部として格納し、前
記仮名漢字変換手段による変換において、付属部同士を
非連接とすることを特徴とする文字処理装置。 - 【請求項2】 請求項1に記載の文字処理装置におい
て、さらに、前記付属部辞書手段に、付属語および付属
語列とともに、付属語と自立語との連接により構成され
る言い回しを1つの付属部として格納することを特徴と
する文字処理装置。 - 【請求項3】 請求項1または請求項2に記載の文字処
理装置において、さらに、前記付属部辞書手段に格納さ
れる各付属部には、優先度情報を対応づけて記憶するこ
とを特徴とする文字処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP01401395A JP3524189B2 (ja) | 1995-01-31 | 1995-01-31 | 文字処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP01401395A JP3524189B2 (ja) | 1995-01-31 | 1995-01-31 | 文字処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH08202700A JPH08202700A (ja) | 1996-08-09 |
JP3524189B2 true JP3524189B2 (ja) | 2004-05-10 |
Family
ID=11849319
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP01401395A Expired - Fee Related JP3524189B2 (ja) | 1995-01-31 | 1995-01-31 | 文字処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3524189B2 (ja) |
-
1995
- 1995-01-31 JP JP01401395A patent/JP3524189B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH08202700A (ja) | 1996-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5878386A (en) | Natural language parser with dictionary-based part-of-speech probabilities | |
JPH0721183A (ja) | 機械翻訳装置 | |
JPH11328166A (ja) | 文字入力装置及び文字入力処理プログラムを記録したコンピュータ読み取り可能な記録媒体 | |
JP3524189B2 (ja) | 文字処理装置 | |
JP3873305B2 (ja) | 仮名漢字変換装置および仮名漢字変換方法 | |
JP2002510075A (ja) | 派生された単語を使用する音声認識辞書の拡張 | |
JP3329476B2 (ja) | かな漢字変換装置 | |
JP2899087B2 (ja) | 文字処理装置 | |
JP2714239B2 (ja) | 文字処理装置 | |
JP3061855B2 (ja) | かな漢字変換装置及びかな漢字変換方法 | |
JP2752025B2 (ja) | 機械翻訳装置 | |
JPS63136264A (ja) | 機械翻訳装置 | |
JPS60112175A (ja) | 仮名漢字変換装置における略称語変換方式 | |
JPS6029823A (ja) | 適応型記号列変換方式 | |
JPH06289890A (ja) | 自然言語処理装置 | |
JPH0749869A (ja) | 単語登録システム | |
JPH0447442A (ja) | 文字処理装置及びその方法 | |
JPH0468466A (ja) | かな漢字変換装置 | |
JPH10187706A (ja) | 文書処理方法及びその装置 | |
JPH08241315A (ja) | 文書処理装置の単語登録機構 | |
JPH02144660A (ja) | かな漢字変換装置 | |
JPH0877159A (ja) | 学習方法 | |
JPH05181854A (ja) | 文章校正装置および文章処理装置、ならびに漢字仮名変換装置 | |
JPS60112174A (ja) | 仮名漢字変換装置における略称語変換方式 | |
JPH0452853A (ja) | 文字処理装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20040130 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20040203 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20040212 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080220 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090220 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100220 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100220 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110220 Year of fee payment: 7 |
|
LAPS | Cancellation because of no payment of annual fees |