JPH02255941A - かな漢字変換方式 - Google Patents

かな漢字変換方式

Info

Publication number
JPH02255941A
JPH02255941A JP1022020A JP2202089A JPH02255941A JP H02255941 A JPH02255941 A JP H02255941A JP 1022020 A JP1022020 A JP 1022020A JP 2202089 A JP2202089 A JP 2202089A JP H02255941 A JPH02255941 A JP H02255941A
Authority
JP
Japan
Prior art keywords
word
kana
conversion
kanji
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1022020A
Other languages
English (en)
Inventor
Masayuki Kameda
雅之 亀田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP1022020A priority Critical patent/JPH02255941A/ja
Publication of JPH02255941A publication Critical patent/JPH02255941A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 挟4分互 本発明は、日本語入力を必要とするかな漢字変換方式に
関する0例えば1日本語ワードプロセッサや日本語編集
装置の日本語入力方式の一つであるかな漢字変換方式に
よる日本語入力に応用できる。
従米艮貨− かな漢字変換の最も基本的な方法は、対象「かな」文字
列の先頭から順次に部分文字列の変換候補を単語辞書か
ら検索し、前方の単語と(品詞レベルで)接続可能な候
補のうち、最も「かな」文字列長さの長い候補を選択し
、この処理を残りの文字列に対して再起的に繰り返す(
単語最長−教法)ものである。
この方法に対して、自立語とその後に(0個以上の)付
属語が連なる文節を認識しながら、選択を行なうことに
より、誤変換率の向上をはかる方法が提案されている。
(a)文節最長−教法は、上記の一単語の長さではなく
1文節長(文節を構成する単語の長さの合計)の最も長
い候補の組合せを選択する。(b)二文節最長−教法は
、二つの隣り合う文節の長さの和が最長となる組合せを
選択する。(C)文節数最小法は、対象文字列の候補組
合せのうち、文節数が最も少ない組合せを選択する。
この他、(d)最尤評価法として、単語長、出現頻度、
接続の重みを考慮した評価値により、縦型探索を進めて
いく方法が提案されている。また。
上記(a)、(b)、(c)でも同じ単語長、あるいは
同じ文節数の場合に出現頻度や接続の重みを考慮するこ
とも可能である。
尚、上記(a)、(b)、(c)のうち、(C)を除い
ては、一般的には処理時間の効率化のために、(d)と
同じく縦型探索で行ない、行き詰まったところでバック
トラックがかかる。
上記(a)の文節最長−教法に関する参考文献として、
「日本語情報処理」 (電子情報通信学会、長連監修、
pp98−104)や「日本語文の形態素解析における
最長−教法と文節数最小法について」 (情報処理学会
、自然言語処理研究会資料。
30−7.1982)がある。
上記(b)の二文節最長−教法に関する参考文献として
、[べた書き文のカナ漢字変換システム」(情報処理学
会、第19回全国大会、5E−4゜1978)がある。
上記(c)の文節数最小法に関する参考文献として、「
日本語文の形態素解析における最長−教法と文節数最小
法について」 (情報処理学会、自然言語処理研究会資
料、30−7.1982)がある。
上記(d)の最尤評価法に関する参考文献として、[自
由入力方式のかな漢字変換」 (情報処理学会、自然言
語処理研究会資料、27−3.1982)や「長さ、頻
度、接続重みを用いたかな漢字変換方式J (Rich
o Technical Report、 15.19
86、pp13−19)がある。
かな漢字変換方式の基本的な方法として、「くるまでは
こをはこぶ」の全廃探索の例がある。−般的には優先解
として、r車で箱を運ぶ」とr車では子を運ぶ」があげ
られるが、出現頻度や接続の重みから前者が選択される
と考えられる。
従来技術においては、第5図に示すとおり、かな漢字変
換の対象である「かな」文字列に対してのみ、かな漢字
変換部2によりかな漢字変換処理を施しており、先頭語
は前の単語がないことから。
前方の単語との接続は考慮されない、このため。
単語長が最も有効的となり、先頭が付属語(助詞や助動
詞)のような短い単語長の単語の場合は、選択されにく
く、誤った変換となりやすい。このことは、残りの文字
列の変換に影響し、全体としての変換も保証されない、
こうした付属語から始まる入力は、!lI′立語までの
入力/変換を行なった後や文の校正時の挿入などの場合
に、しばしばおこることである。
従来技術のうち、上記(c)を除いては、場合によって
は、バックトラックにより正解を得ることもあるがその
確率は小さい。また、(a)、(b)、(Q)において
は、対象文字列は、原則としていわゆる文節の頭となり
得る自立語(即ち名詞、動詞、形容詞、接続詞など)か
ら始まることを想定して変換しているため、同じ長さで
あっても、先頭単語としては自立語が優先的に選択され
る。
たとえば、すでに「車」が確定された文字列の直後に、
「ではこをはこぶ」を入力し、かな漢字変換を行なうと
、先頭の単語としては、助詞の「で」は選択されず、接
続詞「では」が選択され、結局全体として「では子を運
ぶ」となり、「で箱を運ぶ」は選ばれないか、第二候補
以降となってしまう。
目     的 本発明は、上述のごとき実情に鑑みてなされたもので、
付属語から始まる「かな」文字列に対しても、正しい変
換を行なうこと、また、直前単語の認識手段を簡易化し
て、処理コストを軽減すること、さらに、処理コストの
軽減を図るかな漢字変換方式を提供することを目的とし
てなされたものである。
責−一」叉 本発明は、上記目的を達成するために、かな文字列をか
な漢字まじり文字列に変換するかな漢字変換方式におい
て、すでに確定されたかな漢字まじり文字列の特定の位
置の直前の単語を認識して、品詞情報を得ることができ
る認識手段と、かな漢字変換の対象となるかな文字列の
先頭の単語候補選択において、すでに確定され、上記認
識手段によって認識された直前の単語との接続を考慮し
た変換を行なう変換手段とを有すること、あるいは。
上記変換手段が、直前の1文字の字種を認識し。
字種に応じて簡易的に品詞を割り当てる手段を有するこ
と、あるいは、上記かな漢字変換の対象となるかな文字
列の先頭の単語の変換候補として、付属語を優先して選
択する変換機能手段と、該変換機能の指示手段とを有す
ることを特徴としたものである。以下1本発明の実施例
に基づいて説明する。
第1図は、本発明によるかな漢字変換方式を説明するた
めのブロック図で、図中、1は直前単語付加部(あるい
は、直前字種付加部、以下単にパ直前単語(字種)付加
部″のように略す)、2はかな漢字変換部、3は単語辞
書、4は直前単語(字種)認識部、5はテキストバッフ
ァである。
この処理フローについては、第3図に示しである。
すなわち、かな文字列入力と変換キー指示を行うと、ま
ず直前単語(字種)が認識され、次に直前単語(字種)
が付加され、次に第1単語検索終了状態の設定から行わ
れ、さらに従来のかな漢字変換が行なわれて終了する。
本発明の構成としては、すでに確定したかな漢字変換列
において、新たにかな漢字変換するべき「かな」文字列
を挿入する位置の直前の単語を認識する手段を、従来の
構成に付加する。直前の単語を認識し、その品詞情報が
得られたら、入力されたrかな」文字列の前にその単語
を付加し、従来方式の第1単語候補が検索され、その候
補数がただ一つであった状態として扱う1本来の入力「
かな」文字列の先頭の単語は、自動的にこの付加単語に
接続し、場合によっては文節を構成する単語として選択
される。
即ち、r車」の後に[ではこをはこぶ」の入力がある前
記例においては、直前のr車(品詞二名詞)」を認識し
、先頭語がただ−っ「車」だけが検索され、r車でほこ
をはこぶ」の状態を設定し、r車」以降のかな漢字変換
を進める。この場合、「車ノは名詞なので接続詞の「で
は」とともに助詞の「で」も接続可能なので選択され、
接続の重み、あるいは出現頻度を考慮すれば、「で」の
方が優先される確率は高い。
本発明の他の実施例は、直前の単語認識手段の代わりに
、直前の語字種認識手段を備えるものである。この場合
、字種により、簡易的に品詞あるいは品詞あるいは品詞
相当分類を対応させ、新たに入力されたrかな」文字列
の先頭単語の接続の制約を与え、先頭が付属語の場合も
妥当な単語選択を可能とする。例えば、字種が漢字であ
れば、自立語を対応させ、付属語の接続を優先させ、そ
れ以外であれば、自立語の接続を優先させるようにする
。前記例では、r車」は漢字なので入力文字列の先頭は
付属語「で」が優先され、「で箱を運ぶ」と変換される
さらに他の実施例は第2図に示されている0図中、6は
キーボード(変換キー、第2変換キーを含む)、7はか
な漢字変換部、8は単語辞書である。この処理フローに
ついては第4図に示しである。すなわち、かな文字列入
力と第2変換キー指示を行うと、まず先頭単語候補が検
索され1次に付属語優先化が行われ、その後にかな文字
列入力と変換キー指示を行うと、従来のかな漢字変換(
残り文字列に対して)が行われて終了する。
従来のかな漢字変換指示キー以外に別の第二かな漢字変
換方式キーを設け、入力者によりそのキーが指示された
場合は、入力「かな」漢字文字列の先頭の単語として付
属語を優先する。
前記においては、「ではこをはこぶ」の入力に対し、こ
の変換キーが指示された場合には、先頭単語は付属語「
で」が優先され、「で箱を運ぶ」と変換される。
効   果 以上の説明から明らかなように1本発明によると、すで
に確定されたかな漢字まじり文字列の特定の位置の直前
の単語を認識して、品詞情報を得ることができる認識手
段と、該認識手段によって認識された直列の単語との接
続を考慮した変換手段とを有することにより、付属語か
ら始まる「かな」文字列に対しても、変換正解率を高め
ることができ(M求項1に対応)、また、直前の単語認
識手段の代わりに、直前の語字種認識手段を備えたこと
により、処理のコストを軽減することができ(請求項2
に対応)、また、かな漢字変換の対象となるかな文字列
の先頭の単語の変換候補として付属語を優先して選択す
る変換機能を備えたので、さらに処理コストを軽減する
ことができる(請求項3に対応)という効果がある。
【図面の簡単な説明】
第1図は、本発明によるかな漢字変換方式を示すブロッ
ク図、第2図は、他の実施例を示す図。 第3図は、第1図に示されたかな漢字変換方式の処理フ
ローを示す図、第4図は、第2図に示されたかな漢字変
換方式の処理フローを示す図、第5図は、従来方式のか
な漢字変換方式を示すブロック図である。 1・・・直前単語(字種)付加部、2・・・がな漢字変
換部、3・・・単語辞書、4用直前単語(字種)認識部
。 5・・・テキストバッファ・ 第1図 第3図 第4図 第5図

Claims (1)

  1. 【特許請求の範囲】 1、かな文字列をかな漢字まじり文字列に変換するかな
    漢字変換方式において、すでに確定されたかな漢字まじ
    り文字列の特定の位置の直前の単語を認識して、品詞情
    報を得ることができる認識手段と、かな漢字変換の対象
    となるかな文字列の先頭の単語候補選択において、すで
    に確定され、上記認識手段によって認識された直前の単
    語との接続を考慮した変換を行なう変換手段とを有する
    ことを特徴とするかな漢字変換方式。 2、上記変換手段が、直前の1文字の字種を認識し、字
    種に応じて簡易的に品詞を割り当てる手段を有すること
    を特徴とする請求項1記載のかな漢字変換方式。 3、上記かな漢字変換の対象であるかな文字列の先頭の
    単語の変換候補として、付属語を優先して選択する変換
    機能手段と、該変換機能の指示手段とを有することを特
    徴とする請求項1記載のかな漢字変換方式。
JP1022020A 1989-01-31 1989-01-31 かな漢字変換方式 Pending JPH02255941A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1022020A JPH02255941A (ja) 1989-01-31 1989-01-31 かな漢字変換方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1022020A JPH02255941A (ja) 1989-01-31 1989-01-31 かな漢字変換方式

Publications (1)

Publication Number Publication Date
JPH02255941A true JPH02255941A (ja) 1990-10-16

Family

ID=12071306

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1022020A Pending JPH02255941A (ja) 1989-01-31 1989-01-31 かな漢字変換方式

Country Status (1)

Country Link
JP (1) JPH02255941A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02289034A (ja) * 1989-03-16 1990-11-29 Sanyo Electric Co Ltd 文書作成装置
JPH07325815A (ja) * 1994-05-31 1995-12-12 Nec Corp かな漢字変換システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02289034A (ja) * 1989-03-16 1990-11-29 Sanyo Electric Co Ltd 文書作成装置
JPH07325815A (ja) * 1994-05-31 1995-12-12 Nec Corp かな漢字変換システム

Similar Documents

Publication Publication Date Title
US4777600A (en) Phonetic data-to-kanji character converter with a syntax analyzer to alter priority order of displayed kanji homonyms
JP3272288B2 (ja) 機械翻訳装置および機械翻訳方法
EP0971294A2 (en) Method and apparatus for automated search and retrieval processing
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
JPH0981568A (ja) 機械翻訳用の中国語生成装置
JPH02255941A (ja) かな漢字変換方式
JPH0652151A (ja) 共起学習装置及びこれを用いたかな漢字変換装置
JP3682915B2 (ja) 自然文マッチング装置、自然文マッチング方法、及び自然文マッチングプログラム
JP3506058B2 (ja) 意味解析方法及び装置及び意味解析プログラムを記録した記録媒体
JP2655711B2 (ja) 同形語読み分け方式
JP3324910B2 (ja) 日本語解析装置
JP3084864B2 (ja) 文章入力装置
JP2827066B2 (ja) 数字列混在文書の文字認識の後処理方法
JPH07105213A (ja) 言語処理装置
JP3344793B2 (ja) かな漢字変換装置
JPS6389976A (ja) 言語解析装置
JPH0350669A (ja) 情報処理装置
JPS60105037A (ja) 音声入力文章作成方式
JP2000214881A (ja) 音声認識言語モデル生成装置及び音声認識言語モデル生成方法
JPH04372047A (ja) 仮名漢字変換装置
JPH0765018A (ja) キーワード自動抽出装置
JPH07249040A (ja) 機械翻訳用文書構造解析方法並びにそれを用いた機械翻訳方法、文書構造解析装置及び機械翻訳装置
JPS5965343A (ja) 仮名漢字変換装置
JPH06259413A (ja) 日本語入力方式