JPH05324614A - 日本語文処理装置および方法 - Google Patents

日本語文処理装置および方法

Info

Publication number
JPH05324614A
JPH05324614A JP4156125A JP15612592A JPH05324614A JP H05324614 A JPH05324614 A JP H05324614A JP 4156125 A JP4156125 A JP 4156125A JP 15612592 A JP15612592 A JP 15612592A JP H05324614 A JPH05324614 A JP H05324614A
Authority
JP
Japan
Prior art keywords
kana
reading
artificial
kanji
heading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP4156125A
Other languages
English (en)
Inventor
Hiroshi Kaneko
宏 金子
Shinichi Torihara
信一 鳥原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IBM Japan Ltd
Original Assignee
IBM Japan Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IBM Japan Ltd filed Critical IBM Japan Ltd
Priority to JP4156125A priority Critical patent/JPH05324614A/ja
Publication of JPH05324614A publication Critical patent/JPH05324614A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【目的】 文字認識手法で入力された文字列が漢字を一
部含む場合にも、仮名漢字変換を行え、しかも辞書をさ
ほど大きくしなくて済むようにする。 【構成】 辞書単語の通常の読みの見出しのほかに新た
な見出しを導入する。そのために、まず漢字に一意な読
みを対応させる。例えば、「根」→「こん」、「性」→
「せい」と一意に対応させる。この読みを、その漢字の
「代表読み」と呼ぶことにする。漢字を含む辞書単語に
対して、当該漢字すべてを、その代表読みによって仮名
に変え、当該辞書単語の新たな見出しとする。認識され
た文字列は拡張読み生成部3で代表読みを用いて仮名に
変換され、通常の見出しおよび新たな見出しを含む仮名
漢字変換辞書6を用いて仮名漢字変換される。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は文字認識手法で入力さ
れた文字列を処理する日本語処理装置または日本語処理
方法に関し、とくに一部を漢字で入力した場合でも辞書
をさほど大きくしなくて済むようにしたものである。
【0002】
【従来の技術】最近、キーボードを用いないペン入力の
システムが提供されている。一般に「仮名」の方が「漢
字」よりも容易に書けるので、このようなシステムにお
いて日本語の語句、文章などを手書き入力するには、仮
名を手書き入力して「仮名漢字変換」により望むテキス
トを得る方法が有効である。ただし 一部の漢字
(「一」など)は「仮名」よりも容易に書けるので、
「土よう日」を変換して「土曜日」を得るように、入力
の一部が漢字である場合を想定した仮名漢字変換の拡張
が望ましい。以下では、このような拡張した機能を「表
記変換」と呼ぶことにする。この表記変換についてはI
BM Technical DisclosureBu
lletin Vol.34, No.4B,p61に
記載がある。
【0003】表記変換は、仮名漢字変換の仕組みを用い
て、入力の一部が漢字である場合について辞書見出しを
加えることにより実現される。例えば、「根性」という
単語について説明すると、仮名漢字変換では1つの辞書
見出しであるが、これを、下表のように4つの辞書見出
しにすればよい。 「辞書見出し」 「内容」 こんじょう 根性(名詞) ←仮名漢字変換に必要な辞書見出し 根じょう 根性(名詞) ←表記変換のために加える辞書見出し こん性 根性(名詞) ←表記変換のために加える辞書見出し 根性 根性(名詞) ←表記変換のために加える辞書見出し
【0004】この方法では、辞書見出しの数が多過ぎ、
また同じ内容が辞書ファイル中に複数保持されているた
め、辞書ファイルが大きくなり、ペン・ベースのハード
ウェア(通常は小型である)にこの方法を実現するのは
困難である。
【0005】
【発明が解決しようとする課題】この発明は以上の事情
を考慮してなされたものであり、辞書ファイルを大きく
することなく表記変換を実現できるようにすることを目
的としている。
【0006】
【課題を解決するための手段】この発明では、以上の目
的を達成するために、辞書単語の通常の読みの見出しの
ほかに新たな見出しを導入する。そのために、まず漢字
に一意な読みを対応させる。例えば、「根」→「こ
ん」、「性」→「せい」と一意に対応させる。この読み
を、その漢字の「代表読み」と呼ぶことにする。漢字を
含む辞書単語に対して、当該漢字すべてを、その代表読
みによって仮名に変え、当該辞書単語の新たな見出しと
する。例えば「根性」は「こんせい」を見出しとする。
このように辞書見出しと実際の読みが異なっても良い。
通常の見出しと新たに導入した見出しが一致する辞書単
語については見出しを増やす必要はない。 「辞書見出し」 「内容」 こんじょう 根性(名詞) ←「こんじょう」「根じょう」に対応 こんせい 根性(名詞) ←「こん性」「根性」に対応
【0007】上例で分かるように、代表読みを用いるこ
とによって辞書見出し数が削減される。一般に、1単語
に必要な辞書見出し数は、 従来技術 :2のn乗(nはその単語の漢字数) 代表読み利用:2のm乗(mはその単語について代表読
みと異なる読みの漢字数) となる。たとえば上述のように「根」を「こん」と代表
読みし、「性」を「せい」と代表読みすると、「根じょ
う」、「こん性」および「根性」の入力に対して代表読
みの振り仮名はそれぞれ「こんじょう」、「こんせい」
および「こんせい」となり、「こんじょう」という通常
の辞書見出しのほかに「こんせい」の見出しを設ければ
よい。したがって、代表読みとして「その漢字が多く読
まれる読み方」を用いれば、辞書見出し数を大きく削減
できる。
【0008】ところで 代表読みを利用すると、辞書見
出しと実際の読みが異なる可能性があり、辞書参照アル
ゴリズムはそれに対応する必要がある。例えば上述の
「根性」または「こん性」という入力を表記変換するた
めの辞書見出しは「こんせい」であり、実際の「こんじ
ょう」という読みと異なる。「こん性」と認識されたの
ちに代表読みを用いて「こんせい」の読みを得、「こん
せい」の見出しで辞書を参照するのは、正しい動作であ
る反面、「こんせい」と仮名で入力された場合に、「根
性」に変換されてはならない。すなわち、見出しの読み
の中で実際の読みと異なる部分は仮名の入力に対しては
参照されないことが必要である。たとえば「こんせい」
または「混せい」の入力に対して「根性」の見出し「こ
んせい」を利用してはならない。この問題を解決するに
は、辞書見出し中の実際の読みと異なる部分にマークを
つければよい。例えば、「こんせい」という見出しは、
以下のように細分される(−は、マークつきを示す)。 こんせい → 混成 懇請 混声 こんせい → 根性 紺青(これらの単語の正しい読み
は「こんじょう」) このようなマークを利用して、「せい」が仮名の「こん
せい」や「混せい」に対しては「根性」や「紺青」はア
クセスされないにできる。
【0009】なお具体的な例ではポインタを選択的に導
入することにより辞書ファイルの大きさを抑えるように
している。検索の結果として得られる漢字表記、文法等
の情報を「内容」と呼ぶことにする。内容は、漢字表
記、文法等の情報を含み、通常は4〜10バイト程度に
なる。仮名漢字変換の場合には、見出しごとに内容が異
なるので、内容を見出しに付随させてポインタを用いな
い辞書構成が辞書ファイルを(ポインタに必要なバイト
数だけ)小さくする。しかし表記変換用の辞書は、1つ
の単語が複数の見出しを持つことがある。この場合には
4〜10バイト程度の内容を複数持つよりも、1つだけ
持ってポインタを利用した方が辞書ファイルが小さくな
る。一方、実際の読みが全ての漢字について代表読みと
一致する単語については見出しが1つであり、ポインタ
を用いない方が辞書ファイルが小さくなる。以上のこと
から、見出しに付随して、内容・ポインタのいずれをも
持つことができるようにし、複数見出しの単語について
のみポインタを用いることが有効である。
【0010】
【実施例】以下この発明の一実施例について説明する。
第1図は本発明の実施例における全体構成を示すブロッ
ク図である。第1図においてタブレット1は手書きによ
り文字を入力する領域の他に、入力された仮名漢字交じ
り文字列を変換するための変換ボタン、変換された文字
列を確定するための確定ボタンなどが設けられている。
文字認識部2は、タブレット1からの手書き入力された
文字のストロークに基づいて平仮名、片仮名、漢字、数
字、アルファベット等の文字の認識をオンラインで実行
するものである。拡張読み生成部3は、変換ボタンがク
リックされた後、認識された文字列中の漢字に対し代表
読み辞書4を参照して拡張読みを生成する。ここで拡張
読みとは、入力文字列中の平仮名はそのまま残して漢字
は代表読みに置換したものを言う。仮名漢字変換部5
は、拡張読みに対して(平仮名のみの入力の時はその平
仮名文字列に対して)変換辞書6を参照して仮名漢字変
換を実行する。
【0011】次に、「こん性」と手書き入力することに
より「根性」なる単語を得る場合について、入力及び変
換過程を示す(第2図)。オペレーターは、「こ」、
「ん」、「性」の3文字をそれぞれ手書き入力する。文
字認識により「こ」、「ん」、「性」と認識される。タ
ブレット1には、第3図に示すように表示されている。
ここで、オペレータは変換ボタンをクリックする。文字
列「こん性」が拡張読み生成部3に渡され、漢字である
「性」について第5図に示すような代表読み辞書4を参
照してその代表読み「せい」を得る。代表読みは、各漢
字について一意に定まるものであり、本例のように実際
の読みとは必ずしも一致しなくてよい。仮名漢字変換部
5は、拡張読み「こんせい」及び入力文字列「こん性」
を用いて変換を実行し、変換結果「根性」をタブレット
に表示する。タブレット1上の表示は第4図に示すよう
になる。ここで、オペレータが確定ボタンをクリックす
ることにより、入力過程が終了する。
【0012】次に、仮名漢字変換部5の詳細な動作につ
いて図6を参照して説明する。図6において、見出し検
索部7は、拡張読みを用いて変換辞書6を検索する。拡
張読みには漢字を代表読みに置換したことを示すマーク
が付与されている。また、変換辞書6の見出しには実際
の読みと異なる拡張読みであることを示すマークが付与
されている。変換辞書6は例えば第7図に示すような単
語を含む。なお、第7図において*印はその単語がポイ
ンタにより指示される別の見出しの下に存在することを
意味し、実際の辞書情報はこの見出し用には直接には準
備されていない。ポインタを利用して漢字表記、文法等
の情報を省略することにより、変換辞書6の大きさを抑
制している。実際読み確認部8は、入力文字列が平仮名
を含む場合に、実際の読みと異なる単語を検索結果から
削除する。第8図に示す基準により削除すべきか否かの
判定を行う。漢字確認部9は、入力文字列が漢字を含む
場合に、その漢字を含まない単語を検索結果から削除す
る。第9図は、拡張読みが「こんせい」となるような入
力文字列について候補削除の過程を示したものである。
候補選択部10は、複数の候補が存在する場合に、その
中の1を選択する。
【0013】なお、上記では入力文字列を単語単位とし
ているが、1または複数の文節を単位として変換するこ
ともできる。また上述の実施例は機能ブロックで構成し
たが、コンピュータのプログラムで同等の機能を実現で
きることはもちろんである。手書き文字認識のシステム
としては種々のシステムを採用でき、表示手段と、入力
手段とが一体になっていなくてもよい。
【0014】
【発明の効果】以上のように本発明は、代表読みを含む
拡張読みを辞書見出しに用い、さらに一単語の漢字表
記、文法等の情報をポインタで連結することにより、変
換辞書の大きさを圧縮することができる。
【図面の簡単な説明】
【図1】 この発明の1実施例の全体的な構成を示すブ
ロック図である。
【図2】 図1の実施例の動作を説明するフローチャー
トである。
【図3】 図1の実施例の動作を説明する図である。
【図4】 図1の実施例の動作を説明する図である。
【図5】 図1の実施例の代表読み辞書4の構成を説明
する図である。
【図6】 図1の実施例の仮名漢字変換部5の詳細を示
すブロック図である。
【図7】 図1の実施例の変換辞書6の構成を説明する
図である。
【図8】 図1の実施例の仮名漢字変換部5の動作を説
明する図である。
【図9】 図1の実施例の仮名漢字変換部5の動作を説
明する図である。
【符号の説明】
1...タブレット、2...文字認識部、3...拡
張読み生成部、4...代表読み辞書、5...仮名漢
字変換部、6...変換辞書、7...見出し検索部、
8...実際読み確認部、9...漢字確認部、1
0...候補選択部。

Claims (9)

    【特許請求の範囲】
  1. 【請求項1】 少なくとも仮名および漢字の手書き文字
    の認識を行う手段と、 漢字を含む文字列を、当該漢字の一意的な読みを含む人
    工的な仮名読みに変換する手段と、 通常の仮名読みと上記人工的な仮名読みとが同一の辞書
    単語については、上記通常の仮名読みの見出しを具備
    し、上記通常の仮名読みと上記人工的な仮名読みとが異
    なる辞書単語については、上記通常の仮名読みの見出し
    のほかに上記人工的な仮名読みの見出しを具備する仮名
    漢字変換辞書と、 認識された文字列の通常の仮名読みまたは人工的な仮名
    読みを、上記仮名漢字変換辞書を用いて仮名漢字混じり
    文字列に変換する手段とを有することを特徴とする日本
    語文処理装置。
  2. 【請求項2】 上記認識された文字列の通常の仮名読み
    または人工的な仮名読みが上記仮名漢字変換辞書の上記
    人工的な仮名読みの見出しと一致しても、上記人工的な
    仮名読みの見出し中の上記通常の読みと異なる仮名読み
    部分が、上記認識された文字列において仮名文字である
    ときに、上記見出しの一致を無視する請求項2記載の日
    本語文処理装置。
  3. 【請求項3】 上記仮名漢字変換辞書において上記人工
    的な仮名読みの見出し中の上記通常の読みと異なる仮名
    読み部分にマークを付けた請求項2記載の日本語文処理
    装置。
  4. 【請求項4】 上記仮名漢字変換辞書の上記通常の仮名
    読みの見出しおよび上記人工的な仮名読みの見出しの一
    方には実際の辞書情報を与え、他方には当該一方の見出
    しに対するポインタ情報を与える請求項1、2または3
    記載の日本語文処理装置。
  5. 【請求項5】 少なくとも仮名および漢字の手書き文字
    の認識を行う手段と、 認識された文字列を表示する手段と、 表示されている文字列を仮名漢字変換するように指示す
    る手段と、 上記仮名漢字変換するように指示された文字列を仮名漢
    字変換する仮名漢字変換手段と、 表示されている文字列を入力として確定するよう指示す
    る手段とを有し、 さらに上記仮名漢字変換手段は、 漢字を含む文字列を、当該漢字の一意的な読みを含む人
    工的な仮名読みに変換する手段と、 通常の仮名読みと上記人工的な仮名読みとが同一の辞書
    単語については、上記通常の仮名読みの見出しを具備
    し、上記通常の仮名読みと上記人工的な仮名読みとが異
    なる辞書単語については、上記通常の仮名読みの見出し
    のほかに上記人工的な仮名読みの見出しを具備する仮名
    漢字変換辞書と、 認識された文字列の通常の仮名読みまたは人工的な仮名
    読みを、上記仮名漢字変換辞書を用いて仮名漢字混じり
    文字列に変換する手段とを有することを特徴とする日本
    語文処理装置。
  6. 【請求項6】 漢字を含む文字列を、当該漢字の一意的
    な読みを含む人工的な仮名読みに変換する手段と、 通常の仮名読みと上記人工的な仮名読みとが同一の辞書
    単語については、上記通常の仮名読みの見出しを具備
    し、上記通常の仮名読みと上記人工的な仮名読みとが異
    なる辞書単語については、上記通常の仮名読みの見出し
    のほかに上記人工的な仮名読みの見出しを具備する仮名
    漢字変換辞書と、 認識された文字列の通常の仮名読みまたは人工的な仮名
    読みを、上記仮名漢字変換辞書を用いて仮名漢字混じり
    文字列に変換する手段とを有することを特徴とする仮名
    漢字変換装置。
  7. 【請求項7】 少なくとも仮名および漢字の手書き文字
    の認識を行うステップと、 漢字を含む文字列を、当該漢字の一意的な読みを含む人
    工的な仮名読みに変換するステップと、 通常の仮名読みと上記人工的な仮名読みとが同一の辞書
    単語については、上記通常の仮名読みの見出しを具備
    し、上記通常の仮名読みと上記人工的な仮名読みとが異
    なる辞書単語については、上記通常の仮名読みの見出し
    のほかに上記人工的な仮名読みの見出しを具備する仮名
    漢字変換辞書を参照して、認識された文字列の通常の仮
    名読みまたは人工的な仮名読みを仮名漢字混じり文字列
    に変換するステップとを有することを特徴とする日本語
    文処理方法。
  8. 【請求項8】 コンピュータにより実効可能な日本語処
    理用のコンピュータ・プログラム製品において、 上記コンピュータに、 少なくとも仮名および漢字の手書き文字の認識を行うス
    テップと、 漢字を含む文字列を、当該漢字の一意的な読みを含む人
    工的な仮名読みに変換するステップと、 通常の仮名読みと上記人工的な仮名読みとが同一の辞書
    単語については、上記通常の仮名読みの見出しを具備
    し、上記通常の仮名読みと上記人工的な仮名読みとが異
    なる辞書単語については、上記通常の仮名読みの見出し
    のほかに上記人工的な仮名読みの見出しを具備する仮名
    漢字変換辞書を参照して、認識された文字列の通常の仮
    名読みまたは人工的な仮名読みを仮名漢字混じり文字列
    に変換するステップとを実行させることを特徴とする日
    本語文処理用のコンピュータ・プログラム製品。
  9. 【請求項9】 通常の仮名読みと人工的な仮名読みとが
    同一の辞書単語については、上記通常の仮名読みの見出
    しを具備し、上記通常の仮名読みと上記人工的な仮名読
    みとが異なる辞書単語については、上記通常の仮名読み
    の見出しのほかに上記人工的な仮名読みの見出しとを具
    備することを特徴とする仮名漢字変換辞書。
JP4156125A 1992-05-25 1992-05-25 日本語文処理装置および方法 Pending JPH05324614A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP4156125A JPH05324614A (ja) 1992-05-25 1992-05-25 日本語文処理装置および方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP4156125A JPH05324614A (ja) 1992-05-25 1992-05-25 日本語文処理装置および方法

Publications (1)

Publication Number Publication Date
JPH05324614A true JPH05324614A (ja) 1993-12-07

Family

ID=15620876

Family Applications (1)

Application Number Title Priority Date Filing Date
JP4156125A Pending JPH05324614A (ja) 1992-05-25 1992-05-25 日本語文処理装置および方法

Country Status (1)

Country Link
JP (1) JPH05324614A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006121290A1 (en) * 2005-05-10 2006-11-16 Lg Chem, Ltd. Protection circuit for secondary battery and secondary battery comprising the same

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02112058A (ja) * 1988-10-20 1990-04-24 Sharp Corp 文字認識入力装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02112058A (ja) * 1988-10-20 1990-04-24 Sharp Corp 文字認識入力装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006121290A1 (en) * 2005-05-10 2006-11-16 Lg Chem, Ltd. Protection circuit for secondary battery and secondary battery comprising the same

Similar Documents

Publication Publication Date Title
JP3689954B2 (ja) 異種コード文字列転記装置および電子辞書
KR100298547B1 (ko) 문자입력장치
JPH07334499A (ja) 文字列入力装置
KR101159323B1 (ko) 아시아 언어들을 위한 수기 입력
JPH05324614A (ja) 日本語文処理装置および方法
JP3533591B2 (ja) 文字入力装置、文字入力方法および文字入力制御プログラムを記録した記録媒体
JP2621999B2 (ja) 文書処理装置
EP1221082B1 (en) Use of english phonetics to write non-roman characters
JP3847801B2 (ja) 文字処理装置及びその処理方法
JPH0677252B2 (ja) 和文データ入力処理装置
JP3278148B2 (ja) 文字処理装置及びその方法
KR20010003037A (ko) 다국어 입력기
JP5984375B2 (ja) 簡体字・正字変換装置及び当該装置を用いた簡体字・正字変換方法
JPH08272780A (ja) 中国語入力処理装置及び中国語入力処理方法及び言語処理装置及び言語処理方法
JPS61175855A (ja) 仮名漢字変換装置
JPS5998236A (ja) 日本文入力装置
JPS60238967A (ja) 仮名漢字変換結果表示処理方式
JPH02255936A (ja) 文書作成編集装置
JPH08335217A (ja) 読み変換方法及び文書作成装置
JPS61175854A (ja) 仮名漢字変換装置
JPH03225462A (ja) ローマ字漢字変換装置
JPH0447451A (ja) 文字処理装置
JPH04133167A (ja) かな漢字変換装置
JPH08329073A (ja) 手書き入力文字処理方法
JPH04130959A (ja) 文書処理装置および文字変換装置