JPH0773279A

JPH0773279A - 文字変換装置

Info

Publication number: JPH0773279A
Application number: JP5232815A
Authority: JP
Inventors: Jun Ito; 純伊藤; Hiroyuki Kumai; 裕之隈井; Akira Nakajima; 晃中島; Yasumasa Matsuda; 泰昌松田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1993-07-05
Filing date: 1993-09-20
Publication date: 1995-03-17

Abstract

(57)【要約】【目的】辞書の単語の単漢読みごとに圧縮コードに置換
し、漢字またはかなに戻しながら辞書検索を行うこと。【構成】インデクス作成手段１０５において、辞書１０
７の圧縮コードを、圧縮コードテーブル１０６を参照し
ながら、漢字またはかなに戻す。比較手段１０４は、イ
ンデクス作成手段が作成するインデクス文字列と検索文
字列を比較する。【効果】従来の手書き入力用のかな漢字変換で使用する
辞書に比べ、小サイズな辞書を提供することができる。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、漢字かな混じり文字列
に対し、形態素解析処理を行う情報処理装置に関する。

【０００２】

【従来の技術】キーボードに不慣れなユーザでも情報処
理装置を容易に操作できるように、ペン入力機能を備え
た情報処理装置がある。この装置では、表示一体型タブ
レットを備え、表示一体型タブレットに手書きで文字を
筆記することで、文字を入力する事ができる。

【０００３】入力する文字が漢字である場合には、漢字
を直接筆記して入力する事ができる（以下、直接入力と
称する）。しかし、画数の多い漢字は入力に労力を要
し、漢字を思い出せない場合もある。このような場合で
も、容易に漢字を入力できるように、かな漢字変換手段
を備えた装置がある。この装置によれば、上記のように
画数の多い漢字、及び、思い出せない漢字はかなで筆記
し、かな漢字変換手段により漢字に変換して入力する事
ができる（以下、変換入力と称する）。

【０００４】たとえば、単語「会議」を入力する場合
に、「会」は漢字で筆記し、「議」は画数が多いために
かなで筆記する場合がある。この時、入力文字列は「会
ぎ」であり、手書き入力用のかな漢字変換手段は、「会
ぎ」から「会議」に変換しなければならない。この場合
のかな漢字変換手段は、従来のキーボード用のかな漢字
変換と比べて、入力文字列に漢字が存在する点が異な
る。

【０００５】キーボード用のかな漢字変換手段は、かな
文字列から漢字へ変換するために、かな文字列のインデ
クスと、表記文字列を対応づけた辞書を備えていた。と
ころが、手書き入力用のかな漢字変換手段は、辞書のイ
ンデクスが、かな文字列だけでは、「会ぎ」のような漢
字かな混じり単語の検索ができない。そこで、インデク
スを漢字かな混じり文とした辞書がある（特開昭６２-
２０９６６７号公報・特開平２-１１２０５８号公報・
特開平３-１２９４５９号公報記載）。

【０００６】また、キーボード用のかな漢字変換手段に
は、用語学習、文節学習があった。用語学習は、ユーザ
が変換結果を修正した際に、修正した単語を単語単位で
記憶し、また、文節学習は、ユーザが変換結果を修正し
た際に、修正した部分の単語と単語の関係を記憶する。
以降の変換では、先に記憶した単語を優先して第１候補
とする機能で、これにより、ユーザにあった変換結果を
出力する事ができた。

【０００７】また、文字認識手段においても、以前にユ
ーザの入力した文字コードを、入力回数の多い順に、ま
たは、最近入力された順に記憶し、認識候補を表示する
際に、優先して表示する学習機能が機能があった。

【０００８】

【発明が解決しようとする課題】上述のように、インデ
クスを漢字かな混じり文とした辞書は、辞書サイズが大
きい。たとえば、「会議」という漢字を辞書に登録する
場合には、「かいぎ」「会ぎ」「かい議」のような漢字
かな混じり文をインデクスとして登録する必要があっ
た。また、漢字で入力された文字列を形態素解析するた
めには、「会議」の品詞も取得する必要があるため、
「会議」もインデクスとして登録する必要があった。

【０００９】本発明の第１の目的は、従来の手書き入力
用の辞書に比べ、小サイズな辞書を提供する事にある。

【００１０】また、本発明の第２の目的は、ペン用のか
な漢字変換の学習機能については、用語学習、文節学習
だけでは、以下の点で不十分であった。前述のように手
書き入力の場合、どの字を漢字で書いて、どの字をかな
で書くかは、ユーザごとに固有の癖がある。ここで、単
語を構成する文字を、漢字で書くかかなで書くかの情報
を「混ぜ書きパターン」と称する。例えば、「会ぎ」と
いう入力に対しては、「漢字＋かな」が混ぜ書きパター
ンとなる。この癖を学習し、第１候補の選択に使用すれ
ば、変換率の向上が図れる。

【００１１】しかし、従来のように単語単位で学習して
いては、ある単語をユーザがどのような混ぜ書きパター
ンで入力するかを記憶する事は不可能であった。

【００１２】

【課題を解決するための手段】本発明の第１の目的を達
成するための本発明の第１の特徴は、読み文字コードと
圧縮コードを対応づけた圧縮コードテーブルと、圧縮コ
ードをインデクスとして格納すると共に、表記文字コー
ドを格納した電子辞書と、該圧縮コードテーブルを参照
して、該電子辞書の圧縮コードを読み文字コードに変換
する圧縮コード変換手段と、該電子辞書の圧縮コードと
対応した該読み文字コードを表記文字コードに置換する
圧縮コード置換手段と、該圧縮コード変換手段と、該圧
縮コード置換手段とを切り替えながらインデクス文字列
を作成するインデクス作成手段とを備え、該電子辞書の
圧縮コードは、表記文字の読みごとに圧縮されているこ
とを特徴とする文字変換装置である。

【００１３】本発明の第２の目的を達成するための本発
明の第２の特徴は、ユーザの入力した文字列を形態素解
析し、形態素木を作成する形態素解析手段と、ユーザが
形態素木上の単語列を選択するユーザ選択手段と、該ユ
ーザ選択手段により単語列が選択されると、選択された
単語列の入力された際の混ぜ書きパターンを単語ごとに
記憶する記憶手段と、形態素木上から、単語列を自動選
択する自動選択手段とを備え、自動選択手段は、記憶し
た混ぜ書きパターンを参照し、単語列を自動選択するこ
とを特徴とする文字変換装置である。

【００１４】また、本発明の第２の目的を達成するため
の本発明の第３の特徴は、ユーザの入力した文字列を形
態素解析し、形態素木を作成する形態素解析手段と、ユ
ーザが形態素木上の単語列を選択するユーザ選択手段
と、該ユーザ選択手段により単語列が選択されると、選
択された単語列の入力された際の混ぜ書きパターンを単
語ごとに記憶する記憶手段と、形態素木上から、第１候
補の単語列を選択する第１候補選択手段とを備え、第１
候補選択手段は、記憶した混ぜ書きパターンを参照し、
第１候補の単語列を選択することを特徴とする文字変換
装置である。

【００１５】また、本発明の第２の目的を達成するため
の本発明の第４の特徴は、筆記データから文字コードに
変換する文字認識手段と、文字認識手段によりユーザの
入力した文字コードと累積回数の情報とを対応して記憶
する頻度記憶手段と、文字認識手段により変換された１
つ以上の文字コードを入力し、かな漢字変換する形態素
解析手段とを備え、該形態素解析手段は、該頻度記憶手
段に記憶した内容を参照し、変換候補の優先度を換える
手段を有することを特徴とする文字変換装置である。

【００１６】また、本発明の第２の目的を達成するため
の本発明の第５の特徴は、筆記データから文字コードに
変換する文字認識手段と、文字認識手段により変換され
た１つ以上の文字コードを入力し、かな漢字変換する形
態素解析手段と、形態素解析手段によりユーザの入力し
た漢字の文字コードと累積回数の情報とを対応して記憶
する頻度記憶手段とを備え、該文字認識手段は、該頻度
記憶手段に記憶した内容を参照し、認識候補の優先度を
決定する手段を有することを特徴とする文字変換装置で
ある。

【００１７】また、本発明の第２の目的を達成するため
の本発明の第６の特徴は、筆記データから文字コードに
変換する文字認識手段と、文字認識手段により変換され
た１つ以上の文字コードを入力し、かな漢字変換する形
態素解析手段とを備え、該文字認識手段によりユーザの
入力した文字コードと累積回数の情報とを対応して記憶
し、該形態素解析手段によりユーザの入力した漢字の文
字コードと累積回数の情報とを対応して記憶し、該文字
認識手段により入力された場合と、該形態素解析手段に
より入力された場合で、加算する累積回数の情報を区別
して格納する頻度記憶手段とを備え、該形態素解析手
段、及び該文字認識手段は、該頻度記憶手段を参照し、
認識候補、及び、変換候補の優先度を決定することを有
することを特徴とする文字変換装置である。

【００１８】

【作用】ユーザが手書きによりタブレットに入力した座
標データを、文字認識手段により文字コードに変換す
る。変換した文字コードは、形態素解析手段で漢字かな
混じり文字列に変換する。形態素解析手段は、この際
に、入力した文字コード列の一部を比較手段に出力し、
比較手段からの比較結果と一致単語を用いて形態素解析
処理を行う。

【００１９】インデクス作成手段は、辞書から読みだし
た単語のインデクス部に格納された圧縮コードを単漢字
の読みに変換する。変換には、圧縮コードテーブルを参
照する。変換された単漢字の読みと、表記を混合し、イ
ンデクス文字列を作成する。比較手段は、入力した検索
文字列と、インデクス文字列を比較する。制御手段は、
上記各手段を制御する。

【００２０】また、ユーザが文字認識手段で文字を入力
する度に、また、形態素解析手段で漢字を入力する度
に、入力された累積回数を頻度記憶手段に記憶する。ま
た、形態素解析手段は、変換結果が確定される度に、変
換結果から形態素ごとの混ぜ書きパターンを抽出し、混
ぜ書きパターン学習手段により学習する。

【００２１】形態素解析手段は、変換候補を作成する際
に頻度記憶手段と辞書に格納した混ぜ書きパターンを参
照し、第１候補を作成する。また、文字認識手段は、認
識候補を作成する際に頻度記憶手段を参照し、第１候補
を作成する。

【００２２】

【実施例】以下、本発明の実施例について図面を参照し
て説明する。

【００２３】図１は、本実施例の文字変換装置の基本ブ
ロック図である。本装置は、タブレット１０１、文字認
識手段１０２、形態素解析手段１０３、比較手段１０
４、インデクス作成手段１０５、圧縮コードテーブル１
０６、辞書１０７、表示手段１０８、制御手段１０９か
ら構成される。

【００２４】まず、文字認識手段１０２は、タブレット
１０１で検知した座標データ群を、文字コードに変換し
て形態素解析手段１０３に出力する。本発明では、この
文字コードに漢字を許容し、「会ぎ」のような文字列を
漢字に変換する。形態素解析手段１０３は、入力した文
字コード群から検索文字列を切り出し、比較手段１０４
に出力する。形態素解析手段では、比較手段１０４の比
較結果により、形態素木を作成し、一番尤もらしい候補
を変換結果として表示手段１０８に出力する。比較手段
１０４は、インデクス作成手段１０５を使用し、辞書か
ら順次単語を得る。取得した単語のインデクス文字列と
検索文字列を比較し、一致したか否かの比較結果を形態
素解析手段１０３に出力する。インデクス作成手段１０
５は、まず辞書１０７から単語を１つ読みだし、単語に
格納した圧縮コードを圧縮コードテーブル１０６を参照
してインデクス文字列を作成する。ここで、タブレッ
ト、文字認識手段は、手書き文字をオンラインで形態素
解析手段に入力するためのもので、オフラインで入力す
る際には、スキャナーと文字認識手段でも良い。

【００２５】次に、本発明と同じように漢字とかなの混
在した文字列（例えば「会ぎ」）を、漢字の文字列（例
えば「会議」）に変換するための従来の辞書について説
明する。

【００２６】図２は、上記従来の辞書の構造を模式的に
示した図である。本辞書は、インデクス２０１と、表記
列２０２のフィールドから構成される。検索の際には、
検索文字列と、インデクス２０１を比較し、一致した単
語の表記列２０２を取得する。ところが、例えば「日
立」という表記列を検索するのに、「ひたち」、「ひ
立」、「日たち」、「日立」の単語を辞書に登録しなけ
れば、漢字とかなの混在した文字列を検索できないた
め、辞書語数が膨大になる。このため、辞書を記憶する
メモリを多く消費していた。

【００２７】そこで、上記辞書を改善し、辞書の容量を
小さくする事を目的とする。このために、インデクスに
特定の区切り記号を挿入し、「日立」を検索するのに１
つの登録語で済むようにした。図３は、その改善した辞
書の構造を模式的に示した図である。本辞書は、インデ
クス３０１と、表記列３０２のフィールドから構成され
る。ここで、インデクス３０１には、表記列３０２の１
表記に対応する読みごとに（図３では「日」に対応する
読みとして「ひ」、「立」に対応する読みとして「た
ち」）、区切り記号を挿入する。検索の際には、読みと
漢字を区切り記号ごとに置き換えながらインデクス文字
列３０３を作成し、入力した検索文字列と比較する。こ
の方法によれば、単語が、漢字とかなの混在する文字列
として入力されても、表記列を検索するための登録語は
１単語で済み、辞書容量を小さくできる。ところが、イ
ンデクス３０１には、区切り記号を挿入する必要があ
り、表記数が増えれば、その分区切り記号も多く登録し
なければならなかった。

【００２８】本発明の実施例では、さらに区切り記号を
不要とする辞書構造を提供する。図４は、本発明の実施
例の辞書の構造を模式的に示した図である。本辞書４０
１は、圧縮インデクス４０２、表記列４０３から構成さ
れる。圧縮インデクス４０２は、表記列の単漢字に対応
する読み（例えば「ひ」、「たち」）ごとに、２バイト
の圧縮コードに置き換えてある。圧縮コードテーブル４
０４には、圧縮コードから単漢字の読みを取得する為
に、圧縮コードごとに単漢字の読みが対応づけて格納し
てある。単漢字の読みの種類は、３２７６８種類以下で
あり、２バイトの圧縮コードで足りる。このように、単
漢字の読みごとに固定長２バイトの圧縮コードで置き換
えてあるので、図３の辞書のような区切り記号を必要と
しない。本辞書においてインデクス文字列を作成するた
めには、まず辞書から１単語を検索し、圧縮インデクス
４０２から圧縮コードを取得する。次に圧縮コードテー
ブル４０４を参照し、取得した圧縮コードに対応する単
漢字の読みを取得する。取得した読みと表記列を圧縮コ
ードごとに置き換えながらインデクス文字列４０７を作
成する。

【００２９】以上のように、インデクス作成手段は、辞
書の単語から作成できる全てのインデクス文字列を作成
する。これでは、辞書容量を小さくしても検索に時間が
かかる。このために、検索文字列を逐次参照し、作成す
るインデクス文字列の個数を減らす事で、インデクス文
字列を作成する時間を高速にできる。以下は、高速化の
ためのインデクス作成手段について述べる。基本ブロッ
ク図の図１では、比較手段とインデクス作成手段を合わ
せた処理１１０にあたる。

【００３０】図５に効率的なインデクス文字列作成の処
理フローを示す。まず、ステップ５０１において、検索
文字列を取得する。次にステップ５０２において、検索
文字列上のポインタ変数である「対象文字」を検索文字
列の先頭に設定する。ステップ５０３において辞書から
１単語取得する。ここで検索文字列の対象文字を調べ、
かなであるか否かを判定する（ステップ５０４）。かな
であればステップ５０５において、圧縮コードを単漢字
の読みに置換する。この際には、圧縮コードテーブルを
使用する。また、もし漢字コードであったらステップ５
０６において、表記列４０３から圧縮コードに対応する
表記に置換する。ここで、対応する表記とは、現在対象
としている圧縮コードが２番目の圧縮コードであれば、
対応する表記は、表記列４０３上の２番目の表記を指
す。置換した後、今置換した単漢字の読み、または表記
が、対象文字と等しいか否かを判定する（ステップ５０
７）。もし異なれば、この単語に対する一致検索を打ち
切り、ステップ５０８において、辞書のおわりまで上記
の処理を繰り返す。辞書に次の単語がなくなった場合に
は、比較結果を不一致とする（ステップ５０９）。

【００３１】ステップ５０７において、一致すれば検索
文字列の残りがあるか否かを判定する。なければステッ
プ５１１において、辞書の圧縮インデクス４０２に次の
コードがあるか否かを判定する。もし、ステップ５１１
において、偽であれば、検索文字列と辞書文字列は、一
致している事になるので、ステップ５１２において、比
較結果を一致とする。ステップ５１１において真であれ
ば、辞書文字列の方が長いので、検索を続行する。ステ
ップ５１０において真であれば、やはり辞書文字列の残
りがあるか否かを判定する（ステップ５１３）。偽であ
れば検索を続行し、真であれば、ステップ５１４におい
て、対象文字を進める。進める文字数は、ステップ５０
４の判定結果により異なり、表記に置換した場合は１文
字進め、かなに置換した場合は置換した読みの読み長だ
け進める。

【００３２】以上のような方法により、通常の単語は格
納できる。ところが、熟語訓のように、単漢字ごとに読
みの区切れが明確でない単語については、考慮していな
い。例えば、「今日（きょう）」「五月（さつき）」な
どは、単語の読みが音訓読みでないために、表記と読み
の対応がつかない。

【００３３】この場合、本発明の実施例の辞書は、単語
の読みをそのまま文字コードで格納する。単漢字の読み
は３２７６８種類以下であるので、圧縮コードの数値を
文字コードとして使用しない領域に割り当てるれば、２
バイト系文字コード体系で、圧縮コードと読みコードの
格納が可能である。例えば、熟語訓の場合の文字コード
はそのままシフトJISコードなどを使用できる。シフトJ
ISコードは、最上位ビットが常にonであるので、圧縮コ
ードは最上位ビットがoffであるコード領域を使用する
事で、圧縮コードと文字コードを高速に識別できる。

【００３４】次に、本辞書を用いたの学習機能について
説明する。従来のかな漢字変換では、単語単位に学習を
行い、学習された単語を優先して候補出力する事によ
り、ユーザにあった第１候補を出力していた。手書き用
のかな漢字変換においては、単語単位の学習では、以下
の点で不十分である。

【００３５】手書き入力用のかな漢字変換では、前述の
ように入力文字列に漢字が存在する場合がある。この
時、どの字を漢字で書いて、どの字をかなで書くかは、
ユーザごとに癖がでる。この癖を学習し、第１候補の選
択に使用すれば、変換率の向上が図れる。

【００３６】本発明では、混ぜ書きパターンを辞書の一
部に学習する。図６は、このための辞書構造を示した図
である。図４の辞書構造に加えて、混ぜ書きパターン部
６０１を設ける。混ぜ書きパターン部には、表記列４０
３の各文字が、漢字で入力されたか、かなで入力された
かを記憶する。

【００３７】以下、「船出」「荷船」を例にとり、説明
する。ユーザが「船出」を「ふな出」と筆記し、「荷
船」を「に船」と筆記したとする。

【００３８】ここでは、「に船」を例にとり、説明す
る。図１３は、タブレットと表示手段を一体化した表示
一体型タブレットの表示画面例である。ユーザは、入力
枠１３０１に１文字づつ手書き文字を入力する。次に、
変換指示キー１３０２をペンでタッチすることで、手書
き文字は文字認識され、さらに形態素解析手段により漢
字に変換される。ここで、形態素解析手段の変換候補
は、「に（助詞）／船／で／行く」と、「荷船／で／行
く」の２通りが作成され、自動選択手段は、前者を選択
したとする。結果として、結果表示領域１３０３に第１
候補として「に船で行く」が表示される。ところが、こ
の自動選択手段の結果を変更したい場合には、図１４に
示すように、修正したい部分をペン１４０２でタッチす
ることで、他の変換候補の表示を指示する。ユーザ選択
手段は、変換候補を候補表示領域１４０１に表示する。
ユーザは、変換候補から所望の候補を選び、図１５のよ
うにペン１４０２でタッチする。ユーザ選択手段は、選
択された候補とそれに続く漢字を形態素木から選びだ
し、図１６のように結果表示領域に表示する。以上の操
作により、ユーザは形態素木から変換候補を自由に選択
できる。このとき「に船」が「荷船」に変換されたこと
になり、このユーザの癖を、辞書の「荷船」混ぜ書きパ
ターン部６０１に記憶する。結果として、図６に示すよ
うに、混ぜ書きパターンが記憶される。この後、「１０
時に船でする」が入力された場合、形態素解析手段によ
る変換結果として、(1)「１０時に船出する」と(2)「１
０時荷船でする」が候補として存在するが、(1)は「船
で」が「船出」に変換された事になり、記憶した混ぜ書
きパターン「かな＋漢字」と一致しない。(2)は、「に
船」が「荷船」に変換された事になり、記憶した混ぜ書
きパターン「かな＋漢字」と一致する。よって、(2)を
第１候補として表示する。

【００３９】以上のように、ユーザごとの混ぜ書きパタ
ーンを記憶し、形態素解析の結果と比較する事により、
第１候補の選択に使用する。これにより、学習後の第１
候補にユーザの癖を反映させる事ができる。

【００４０】混ぜ書きパターンの学習情報は、辞書と別
に格納しても実現できる。また、学習情報は「漢字」か
「かな」かの２値を格納するだけでなく、使用頻度に対
応して多値をとっても実現できる。つまり、混ぜ書きパ
ターンの情報を、漢字で入力された回数として数えるよ
うにする。かなで入力された場合には、１回につき（−
１回）と数えるようにする。例えば、「に船」が１文に
３回入力された場合は、混ぜ書きパターンを「漢字（−
３回）＋漢字３回」と格納しておく。つぎに、「荷船」
が１回入力された場合は、混ぜ書きパターンを「漢字
（−２回）＋漢字４回」に更新する。この学習情報か
ら、このユーザは、「荷船」という単語については「か
な＋漢字」の混ぜ書きパターンを用いることが多いこと
が分かる。しかし、場合によっては、「漢字＋漢字」を
使用することも分かる。こうすることにより、第１候補
を選択する際に、第１候補を一意に決定できなかった場
合に、学習回数の多い候補を優先したり、より一定の入
力パターンを用いている単語を優先して候補表示する事
ができる。

【００４１】次に、文字認識手段と、形態素解析手段に
よる学習を利用して、お互いの認識率・変換率を向上さ
せる第２の実施例について説明する。

【００４２】図７は、第２の実施例である文字変換装置
の基本ブロック図である。図１の基本ブロック図に頻度
記憶手段７０９、混ぜ書きパターン学習手段７１０を追
加した。

【００４３】頻度記憶手段７０９は、文字認識手段１０
２によって入力された文字の文字コード、または、形態
素解析手段１０３により変換された文字の文字コード
を、入力された累積回数と組にして記憶する。混ぜ書き
パターン学習手段７１０は、ユーザが変換結果を確定し
た際に、ユーザの入力した単語の混ぜ書きパターンを抽
出し、辞書に格納した混ぜ書きパターン部に記録する。

【００４４】以下、各部について詳細に説明する。

【００４５】図８は、頻度記憶手段７０９のデータ構造
を模式的に示した図である。

【００４６】ここでは、文字認識手段１０２の学習情報
と、形態素解析手段１０３の学習情報を共通に記憶し、
文字認識手段１０２の認識候補の選択、形態素解析手段
１０３の変換候補の選択に使用する事により、認識率、
変換率を向上させる。

【００４７】頻度記憶手段７０９は、漢字コード８０１
と、頻度学習情報８０２から成る。頻度学習情報は、漢
字コードの入力された回数の累積値を格納する。この際
に、文字認識手段１０２によって入力された漢字は、１
回につき、マイナス１を加算し、形態素解析手段１０３
によって入力された漢字は、１回につき、プラス１を加
算する。

【００４８】例えば、漢字「一（イチ）」は、ひらがな
で「いち」と書いてかな漢字変換するよりも、直接漢字
の「一」を筆記した方が、入力操作が簡単であり、この
操作が過去に３回、行われたとする。このとき、漢字
「一」は、文字認識手段１０２によって入力が確認さ
れ、形態素解析手段１０３では確認できない。このと
き、頻度学習情報８０２としては、マイナス１が、３回
累積され、マイナス３となる。

【００４９】また、漢字「位置（イチ）」は、漢字で
「位置」と直接筆記するよりも、ひらがなで「いち」と
書いてかな漢字変換した方が、入力操作が簡単であり、
この操作が過去に５回、行われたとする。このとき、漢
字「位」と「置」は、形態素解析手段１０３により、入
力が確認され、文字認識手段１０２では、確認できな
い。このとき、頻度学習情報８０２としては、プラス１
が、５回累積され、プラスの５となる。

【００５０】また、あるユーザは、漢字「船出」を「ふ
な出」と筆記し、漢字「荷船」を「に船」と筆記する癖
があった場合、以上の操作を３回づつ繰り返すと、「船
出」について漢字「船：プラス３」、漢字「出：マイナ
ス３」、「荷船」について漢字「荷：プラス３」、漢字
「船：−３」が累積され、あわせて「船：０」「出：マ
イナス３」「荷：プラス３」となる。つまり、この例の
場合、漢字「船」は、単語によって、ひらがなで入力し
たり、漢字で入力したりするため、頻度学習情報８０２
は、「ゼロ」となる。

【００５１】図８の各数値は、以上のような入力が行わ
れた結果の頻度記憶手段７０９の状態を示す。このよう
に、頻度学習情報８０２は、単に入力された回数の累積
値を格納するのではなく、マイナスであれば直接入力、
プラスであれば変換した文字入力がされたことがわか
る。また、「ゼロ」に近い場合は、入力回数が少ない
か、もしくは、直接入力、変換した文字の入力のいずれ
かに偏りの少ない漢字である事を示す。ここで、プラ
ス、マイナスの割り付けは、逆でも良い。

【００５２】以上の頻度記憶手段７０９への記録のタイ
ミングは、ユーザが認識候補、または、変換候補を選
択、または、表示中の候補を確定した際に行う。頻度記
憶手段７０９に記録した情報は、文字認識手段１０２が
第１候補を決定する際、または、形態素解析手段１０３
が第１候補を決定する際、に使用する（後述）。

【００５３】次に、混ぜ書きパターン学習手段７１０に
ついて説明する。

【００５４】ここでは、ユーザの入力した混ぜ書きパタ
ーンを記憶し、混ぜ書き文字列のかな漢字変換率を向上
させる混ぜ書きパターン学習において、前述の学習をよ
り効率的にする方法について述べる。前述の混ぜ書きパ
ターンの学習では、入力された文字列と確定された変換
結果から、常に最新の混ぜ書きパターンを取得し、図６
の辞書の混ぜ書きパターン部６０１に上書きしていた。
この場合の学習では、過去の学習データを継承すること
無く、混ぜ書きパターン部の書き換えが行われるので、
異なる混ぜ書きパターンを入力する度に、それ以前の混
ぜ書きパターンは消去されてしまう。

【００５５】そこで、混ぜ書きパターン部を漢字で入力
された累積回数として格納する。つまり、漢字で直接入
力された漢字については、プラスとして混ぜ書きパター
ンを累積し、かなで入力された漢字については、マイナ
スとして混ぜ書きパターンを累積するようにする。

【００５６】例えば、単語「船出」を、あるユーザは
「ふな出」と入力する癖のあった場合、漢字「船」は、
かなで入力されたため、混ぜ書きパターン部にマイナス
１を加算する。また、漢字「出」は、漢字で入力された
ため、混ぜ書きパターン部にプラス１を加算する。よっ
て、単語「船出」の混ぜ書きパターン部は、「−１，＋
１」となる。図９(b)に示した辞書１０７内における混
ぜ書きパターン部の数値９０１は、この操作を３回繰り
返したの結果の状態を示す。

【００５７】以上のように、混ぜ書きパターン部を、単
に「漢字」か「かな」かの混ぜ書きパターンでなく、累
積値とすることで、過去の学習を生かしながら、学習値
を更新することができる。

【００５８】ところが、単に累積するだけであると、あ
る混ぜ書きパターンを学習したのち、ユーザの混ぜ書き
パターンの癖が変ったり、異なるユーザが使用して混ぜ
書きパターンの傾向が変った場合、初期の学習値を打ち
消すのに、時間がかかる。つまり、初期の混ぜ書きパタ
ーン学習値が「船出：−３，＋３」であったものを「船
出：＋３，−３」に書き変えるには、最低６回の再学習
が必要となる。混ぜ書きパターンの記憶方法を累積値と
することで、過去のデータを生かした学習値の更新が行
えるようになったが、その分、一度学習すると更新に時
間がかかるという問題も残る。

【００５９】そこで、旧学習値と最新の学習値の重みを
変えることで、さらに、学習の効率を向上させる。図９
は、混ぜ書きパターン学習手段７１０が学習値を更新す
る際の処理フローを示す図である。

【００６０】まず、図９のステップ９０２において、辞
書１０７の混ぜ書きパターン部を読みだす。ステップ９
０３において、１．０未満の特定値αを読みだした学習
値にかける。ステップ９０４において、α倍した旧学習
値に対して、新学習値を加算する。ステップ９０５にお
いて、加算した新学習値を辞書の混ぜ書きパターン部に
書き込む。

【００６１】以上のように、旧学習値に１．０未満の特
定値αをかけることで、過去の学習値の重みを軽くして
から、最新学習値を加算する。

【００６２】図１０は、最新学習値と旧学習値の重みを
グラフにしたものである。最新の学習値は、α倍される
ことが無いが、１回前の学習値はα倍され、２回前の学
習値は、（αの２乗）倍されていることになり、一般に
ｎ回前の学習値は、（αのｎ乗）倍されることになる。
αは１未満であるので、過去になればなるほど、重みを
軽くしながら、最新学習を加算している事になり、処理
も簡単であるため、効果が大きい。

【００６３】次に、形態素解析手段１０３について説明
する。形態素解析手段１０３では、入力した文字コード
列から辞書を検索し、形態素木を作る。図１１は、形態
素木を模式的に示した図である。これは、入力文字列
「１０じに船でいちする」を形態素解析した結果の一例
である。

【００６４】形態素の区切り方として「１０／じ／に船
／で／いち／する」と、「１０／じ／に／船で／いち／
する」の２通りある。更に、単語「いち」に対して
「一」「位置」の同音語がある。よって、組み合わせと
して、変換候補（a)〜(d)の４通りが作成された例であ
る。

【００６５】また、各変換候補ごとに、入力文字列１１
０１、変換候補１１０２を記憶する。入力文字列、変換
候補は、形態素区切りごとに格納されている。更に、
「船出」や「荷船」や「位置」など、変換候補に漢字を
複数含む単語は、読みと表記の対応がつくように、単漢
読みごとに「／（スラッシュ）」を句切り記号として挿
入してある。

【００６６】本実施例では、以上の変換候補に対し、従
来の文節数最小法、最長一致法などの評価法、また、用
語学習、文節学習、などの学習法を併用して、第１候補
の選択を行うが、更に、混ぜ書きパターン学習による混
ぜ書き評価値１１０３と、頻度記憶手段７０９による頻
度学習評価値１１０４を記憶し、これらを含めた評価を
行うことにより、よりユーザにあった変換候補を選択す
ることができる。

【００６７】混ぜ書き評価値１１０３は、入力文字列１
１０１の混ぜ書きパターンと、辞書に格納した混ぜ書き
パターン部とを比較し、一致しているか否かを記憶す
る。本実施例では、一致していれば″１″、不一致であ
れば″０″を格納する。また、辞書１０７の混ぜ書きパ
ターン部６０１の累積値の絶対値を考慮して、「強く一
致／弱く一致／弱く不一致／強く不一致」のように多値
化してもよい。

【００６８】頻度学習評価値１１０４は、頻度記憶手段
７０９を参照し、過去に変換入力された事のある単語か
否かを頻度学習情報８０２で記録する。

【００６９】混ぜ書き評価値１１０３、及び頻度学習評
価値１１０４を設定する処理の処理フローを図１２に示
す。ステップ１２０１において、形態素解析手段１０３
の作成した検索文字列が辞書にあるか否かを、比較手段
１０４で比較し、比較手段１０４により検索文字列が、
辞書１０７の単語に一致したことをうけると、ステップ
１２０２において、辞書１０７から検索された表記を変
換候補１１０２に格納する。また、ステップ１２０３に
おいて、入力文字列１１０１、変換候補１１０２に句切
り記号を挿入する。区切り位置は、インデクス作成手段
を使用すればよい。ステップ１２０４、１２０５におい
て、混ぜ書き評価値１１０３を記入する。ステップ１２
０４において、形態素解析手段１０３は、辞書１０７の
混ぜ書きパターン部６０１より一致した単語の混ぜ書き
パターンを読みだし、入力文字列の混ぜ書きパターンと
比較する。

【００７０】ステップ１２０５において、比較の結果を
混ぜ書き評価値１１０３に格納する。次に、ステップ１
２０６、１２０７、１２０８において、頻度学習評価値
を記入する。ステップ１２０６において、頻度記憶手段
７０９より変換候補１１０２の漢字１字づつの頻度学習
情報８０２を取得する。この際、ステップ１２０７にお
いて、１つの形態素に複数の漢字がある場合には、漢字
それぞれの頻度学習情報８０２を合計し、ステップ１２
０８において頻度学習評価値１１０４に格納する。以上
の操作を、変換候補の形態素すべてについて終了したあ
と、ステップ１２０９において、混ぜ書き評価値、及び
頻度学習評価値１１０４を変換候補ごとに合計する。結
果は、混ぜ書き評価値合計１１０５と、頻度学習評価値
合計１１０６に格納する。

【００７１】これらの評価値は、第１候補の選択の際に
使用する。まず、文節数最小法、または、最長一致法な
どの評価法、更に用語学習、文節学習による学習法によ
り、変換候補を絞り込み、残った変換候補に対して、混
ぜ書き評価値合計、頻度学習評価値合計を比較して、第
１候補を決定する。本実施例の場合、混ぜ書き評価値合
計、及び、頻度学習評価値合計の大きい変換候補ほど、
ユーザの学習値を反映した候補である。

【００７２】これにより、従来の用語学習、文節学習で
は絞りきれない場合でも、ユーザの過去の混ぜ書きパタ
ーン、変換入力したか、直接入力したか、を反映した第
１候補を提供できる。

【００７３】一方、文字認識手段１０２では、上記の形
態素解析手段１０３と同様に、複数の認識候補が存在す
る場合、認識候補それぞれの頻度学習情報８０２を取得
し、直接入力された回数の多い漢字、つまり頻度学習情
報８０２がマイナス側に大きければ大きい程、優先度を
高くし、プラス側に大きければ大きい程、優先度を低く
して、第１候補を決定する、または、認識候補を表示す
るようにすればよい。

【００７４】尚、前述の評価法、学習法によって候補を
絞り込む際に、上記実施例の混ぜ書き評価値、頻度学習
評価値を含めて第１候補を決定してもよい。また、混ぜ
書きパターン学習手段、及び、頻度記憶手段は、辞書の
構造によらない。また、本実施例では、混ぜ書きパター
ンの学習を辞書に記憶したが、辞書とは別に記憶しても
よい。また、本実施例で、頻度記憶手段は入力頻度を累
積回数として記憶したが、累積回数の代わりに、入力さ
れた時間の新しい順に配列し、配列の順位を入力頻度の
代わりに使用してもよい。また、頻度記憶手段７０９
は、特開平０５−７８０２号公報の「情報処理システム
及び個人照合システム」を記載のペンに格納した記憶手
段に格納することにより、個人ごとの学習情報をより有
効に活用することができる。

【００７５】

【発明の効果】以上説明したように、本発明によれば、
従来の手書き入力用のかな漢字変換で使用する辞書に比
べ、小サイズな辞書を提供できる。また、本発明の学習
により文字認識率、変換率を向上させる事ができる。

【図面の簡単な説明】

【図１】本発明の第１の実施例に係る文字変換装置の基
本ブロック図である。

【図２】従来の辞書を示す説明図である。

【図３】インデクス作成処理を示す説明図である。

【図４】圧縮コードからのインデクス作成を示す説明図
である。

【図５】インデクス作成のフローチャートである。

【図６】混ぜ書きパターンの記憶方法を示す図である。

【図７】本発明の第２の実施例に係る文字変換装置の基
本ブロック図である。

【図８】本発明の第２の実施例における頻度記憶手段を
示す説明図である。

【図９】交ぜ書きパターン学習手段を示す説明図であ
る。

【図１０】学習値の重み付けを示す説明図である。

【図１１】混ぜ書き評価値と頻度学習評価値を示す説明
図である。

【図１２】混ぜ書き評価値、頻度学習評価値の設定を示
す説明図である。

【図１３】表示一体型タブレットを用いてユーザが候補
を選択する手順を示す第１の図である。

【図１４】表示一体型タブレットを用いてユーザが候補
を選択する手順を示す第２の図である。

【図１５】表示一体型タブレットを用いてユーザが候補
を選択する手順を示す第３の図である。

【図１６】表示一体型タブレットを用いてユーザが候補
を選択する手順を示す第４の図である。

【符号の説明】

１０１…タブレット、１０２…文字認識手段、１０３…形態素解析手段、１０４…比較手段、１０５…インデクス作成手段、１０６…圧縮コードテーブル、１０７…辞書、１０８…表示手段、１０９…制御手段。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号庁内整理番号ＦＩ技術表示箇所Ｇ０６Ｋ 9/68 8623−5Ｌ (72)発明者松田泰昌神奈川県横浜市戸塚区吉田町292番地株式会社日立製作所映像メディア研究所内

Claims

【特許請求の範囲】

【請求項１】読み文字コードと圧縮コードを対応づけた
圧縮コードテーブルと、圧縮コードをインデクスとして格納すると共に、表記文
字コードを格納した電子辞書と、該圧縮コードテーブルを参照して、該電子辞書の圧縮コ
ードを読み文字コードに変換する圧縮コード変換手段
と、該電子辞書の圧縮コードと対応した該読み文字コードを
表記文字コードに置換する圧縮コード置換手段と、該圧縮コード変換手段と、該圧縮コード置換手段とを切
り替えながらインデクス文字列を作成するインデクス作
成手段とを備え、該電子辞書の圧縮コードは、表記文字の読みごとに圧縮
されていることを特徴とする文字変換装置。
【請求項２】該電子辞書の圧縮コードは、単語が当て字
または熟語訓の場合に読み文字コードを格納することを
特徴とする請求項１記載の文字変換装置。
【請求項３】請求項１記載の文字変換装置において、該インデクス作成手段は、電子辞書の単語と一致検索す
る為の検索文字列がかなであるか漢字であるかのパター
ン（以下、混ぜ書きパターンと称する。）によって、圧
縮コード変換手段と圧縮コード置換手段を切り替えるこ
とを特徴とする文字変換装置。
【請求項４】ユーザの入力した文字列を形態素解析し、
形態素木を作成する形態素解析手段と、ユーザが形態素木上の単語列を選択するユーザ選択手段
と、該ユーザ選択手段により単語列が選択されると、選択さ
れた単語列の入力された際の混ぜ書きパターンを単語ご
とに記憶する記憶手段と、形態素木上から、単語列を自動選択する自動選択手段と
を備え、自動選択手段は、記憶した混ぜ書きパターンを参照し、
単語列を自動選択することを特徴とする文字変換装置。
【請求項５】ユーザの入力した文字列を形態素解析し、
形態素木を作成する形態素解析手段と、ユーザが形態素木上の単語列を選択するユーザ選択手段
と、該ユーザ選択手段により単語列が選択されると、選択さ
れた単語列の入力された際の混ぜ書きパターンを単語ご
とに記憶する記憶手段と、形態素木上から、第１候補の単語列を選択する第１候補
選択手段とを備え、第１候補選択手段は、記憶した混ぜ書きパターンを参照
し、第１候補の単語列を選択することを特徴とする文字
変換装置。
【請求項６】請求項４記載の文字変換装置において、該記憶手段は、混ぜ書きパターンが繰返し入力された場
合にパターンごとに入力回数を、混ぜ書きパターンと共
に記憶し、該自動判定手段が、一意に単語列を選択でき
ない場合には、混ぜ書きパターンの入力回数を比較し、
入力回数の多い形態素木を選択することを特徴とする文
字変換装置。
【請求項７】筆記データから文字コードに変換する文字
認識手段と、文字認識手段によりユーザの入力した文字コードと累積
回数の情報とを対応して記憶する頻度記憶手段と、文字認識手段により変換された１つ以上の文字コードを
入力し、かな漢字変換する形態素解析手段とを備え、該形態素解析手段は、該頻度記憶手段に記憶した内容を
参照し、変換候補の優先度を換える手段を有することを
特徴とする文字変換装置。
【請求項８】請求項７記載の文字変換装置において、該
形態素解析手段は、かな漢字変換した結果の第１候補を
決定する際に、該頻度記憶手段に記憶された内容を参照
し、累積回数の多い漢字を含む候補は、変換候補の優先
度を下げることを特徴とする文字変換装置。
【請求項９】筆記データから文字コードに変換する文字
認識手段と、文字認識手段により変換された１つ以上の文字コードを
入力し、かな漢字変換する形態素解析手段と、形態素解析手段によりユーザの入力した漢字の文字コー
ドと累積回数の情報とを対応して記憶する頻度記憶手段
とを備え、該文字認識手段は、該頻度記憶手段に記憶した内容を参
照し、認識候補の優先度を決定する手段を有することを
特徴とする文字変換装置。
【請求項１０】請求項９記載の文字変換装置において、該文字認識手段は、文字認識された結果の第１候補を決
定する際に、該頻度記憶手段に記憶した内容を参照し、
累積回数の多い漢字は、文字認識候補の優先度を下げる
ことを特徴とする文字変換装置。
【請求項１１】筆記データから文字コードに変換する文
字認識手段と、文字認識手段により変換された１つ以上の文字コードを
入力し、かな漢字変換する形態素解析手段とを備え、該文字認識手段によりユーザの入力した文字コードと累
積回数の情報とを対応して記憶し、該形態素解析手段に
よりユーザの入力した漢字の文字コードと累積回数の情
報とを対応して記憶し、該文字認識手段により入力され
た場合と、該形態素解析手段により入力された場合で、
加算する累積回数の情報を区別して格納する頻度記憶手
段とを備え、該形態素解析手段、及び該文字認識手段は、該頻度記憶
手段を参照し、認識候補、及び、変換候補の優先度を決
定することを有することを特徴とする文字変換装置。
【請求項１２】請求項１１記載の文字変換装置におい
て、該形態素解析手段は、かな漢字変換した結果の第１候補
を決定する際に、該頻度記憶手段に記憶した内容を参照
し、該文字認識手段による累積回数の多い漢字を含む候補
は、変換候補の優先度を下げ、該文字認識手段は、認識
候補の第１候補を決定する際に、該頻度記憶手段に記憶
した内容を参照し、該形態素解析手段による累積回数の
多い漢字は、認識候補の優先度を下げることを特徴とす
る文字変換装置。
【請求項１３】請求項４記載の文字変換装置において、該記憶手段は、混ぜ書きパターンを数値として格納し、混ぜ書きパターンを更新する際に、既に記憶している混
ぜ書きパターンを読みだし、１未満の数値を乗算し、新
たな混ぜ書きパターンを加算し、結果を更新値として格
納することを特徴とする文字変換装置。