JPH10269210A

JPH10269210A - 文字入力装置

Info

Publication number: JPH10269210A
Application number: JP9069442A
Authority: JP
Inventors: Takeshi Hirose; 岳史広瀬
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 1997-03-24
Filing date: 1997-03-24
Publication date: 1998-10-09

Abstract

(57)【要約】【課題】文章の入力中において、後接する文字列を予
測することによって入力を支援する技術において、省略
記号を入力して前方一致を行うものは、文字入力時の負
担が大きく、過去に選択した候補を学習する技術では、
初めて入力される単語については対応不能であるという
様々な問題が発生していた。【解決手段】本発明においては、文字の予測にあた
り、漢字ごとに分野情報を付与し、後続する文字列の候
補において、漢字ごとに付与された分野情報に基づいて
候補を絞り込むみ、候補文字列を表示させることによ
り、予測候補の正解率が高い予測による文字入力を行
う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、ワードプロセッ
サ、電子手帳、携帯情報端末など、日本語を入力可能と
する装置に関するものである。

【０００２】

【従来の技術】日本語の文字入力に際して、既に入力さ
れた文字に続く文字を予測し、それらの中から所望の表
記を選択することで文字入力の効率化を図る装置が従来
から多く発明されている。

【０００３】例えば、特開平７−１９１９８６号公報に
記載の『文章入力装置』においては、文字の省略記号を
使って入力文字数を減らす方法が提案されている。この
装置では、利用者が「日本＊」のように省略記号「＊」
を入力することで「日本語」「日本海」など、「日本＋
後続文字列」という単語を得たい旨を装置に伝える方法
である。

【０００４】また、特開平７−１９２０９５号公報に記
載の『文字列入力装置』においては、既入力文字をキー
に単語辞書を検索し、キー以外の部分を予測文字列とし
て装置が自動的に切り出すものである。たとえば「トレ
ー」という入力がなされた時点で、単語辞書を検索し、
「トレーニング」「トレーナー」など、「トレー」を部
分的に含む候補を検索し、「ニング」「ナー」などの部
分を自動的に補完するものである。

【０００５】さらに、予測した文字列の正解率を上げる
ための工夫として、特開平７−３３４６２５号公報に記
載の『文字列入力装置』においては、入力文字列の履歴
情報を格納した学習メモリを参照して、後続する文字を
予測する。この装置においては、前述の単語辞書の検索
に加え、過去に選択された文字列を格納した学習バッフ
ァとの照合も行い、学習バッファの内容に一致した場合
は単語辞書の検索よりも優先する方法が提案されてい
る。

【０００６】また、特開平８−２３５３１８号公報に記
載の『入力予測装置及び入力予測方法』においては、あ
らかじめ統計情報などに基づいて決定した、文字の連接
確率情報を用いて後続する文字を予測する。

【０００７】特開平８−２５５１５６号公報に記載の
『文字列予測方法、文字列予測装置及び文書作成装置』
においては、入力された文字列に応じて、予測文字列の
長さを制限して候補を絞り込む方法が提案されている。

【０００８】

【発明が解決しようとする課題】しかしながら、上記の
各従来技術において、省略記号を入力するものは利用者
が省略記号を入力しなければならず、文字入力時の負担
が残るという問題がある。

【０００９】また、単に単語辞書を検索して入力してい
る文字列を部分的に含む単語を検索することによれば、
自動的に文字の予測が可能となるが、入力文字によって
は予測される候補が多いという問題点がある。

【００１０】また、過去に選択した候補を学習するもの
においては、過去に選択した候補以外は学習されていな
いため、初めて入力される単語については対応できない
という問題点がある。

【００１１】隣接確率データを用いるものは、文字の隣
接する確率情報を求めるのが困難である。特に日本語に
おいては、文字数の多さなどから精度の高い隣接確率デ
ータを抽出することが難しく、データサイズも大規模な
ものになってしまうという問題点がある。また、予測文
字列の制限を用いることは精度にかなり問題がある。

【００１２】そこで、本発明では、既に入力された文字
に続く文字を予測し、これを選択することで文字を入力
していく文字入力装置において、文字の予測にあたり漢
字に付加した分野情報を利用して候補を絞り込むこと
で、予測候補の正解率が高い文字入力を行うものであ
る。

【００１３】

【発明を解決するための手段】本発明の請求項１によれ
ば、入力された文字に基づいて、後続する文字列を予測
し、複数の予測文字列から選択を行うことで文字を入力
する文字入力装置において、少なくとも単語の表記情報
及び分野情報を格納した単語辞書と、入力された文字に
基づいて前記単語辞書を検索する単語検索手段と、各漢
字に対して分野情報を付加した漢字分野情報に基づき、
過去に入力された文字列中の漢字から分野情報を取得す
る学習手段と、前記学習手段により得られた分野情報に
基づいて、前記単語検索手段により検索された単語候補
の優先づけを行う評価手段を備えることにより上記課題
を解決する。

【００１４】本発明の請求項２によれば、前記分野情報
は、ｎ個の分野ラベルからなり、各ラベルには分野との
関連度を数値化したものが記憶され、各漢字に対してｎ
次元のベクトル情報として分野情報を構成することによ
り上記課題を解決する。

【００１５】本発明の請求項３によれば、前記評価手段
は、候補の優先づけにおいて、前記学習手段により得ら
れるｎ次元ベクトルの漢字分野情報と、各単語候補のｎ
次元ベクトル化された漢字分野情報の内積を算出し、値
の大きい候補を優先することにより上記課題を解決す
る。

【００１６】本発明の請求項４によれば、前記分野情報
は、ｎ個の分野ラベルからなり、各ラベルには分野との
関連度を数値化したものが記憶され、各漢字に対してｎ
次元空間の座標情報として分野情報を構成するものであ
り、前記評価手段は、候補の優先づけにおいて、前記学
習手段により得られるｎ次元座標化された漢字分野情報
と、各候補のｎ次元座標化された漢字分野情報の距離を
算出し、値の小さい候補を優先することにより上記課題
を解決する。

【００１７】本発明の請求項５によれば、前記単語辞書
は少なくとも表記情報、分野情報及び品詞情報から構成
され、前記単語辞書に基づいて文字列から単語を切り出
し、品詞を特定する形態素解析手段を備え、前記学習手
段は、過去に入力された文字列を前記形態素解析により
単語に分割し、所定の単語についてのみ分野情報を得る
ことにより上記課題を解決する。

【００１８】本発明の請求項６によれば、前記学習手段
は、過去に入力された文字列を前記形態素解析手段によ
り単語に分割し、固有名詞については分野情報を取得し
ないことにより上記課題を解決する。

【００１９】本発明の請求項７によれば、漢字分野情報
を構成する各分野ラベルのうち、操作者が入力する文章
に即した分野情報を予め設定する分野設定手段を備え、
前記評価手段において、前記分野設定手段により設定さ
れた分野の分野ラベルに基づいて優先候補を決定するこ
とにより上記課題を解決する。

【００２０】

【発明の実施の形態】以下、図面を用いて本発明を詳細
に説明する。図１は本発明の実施例における装置の基本
構成図である。１は、手書き文字の入力や選択指示など
の各種信号を入力するための入力手段であり、ペン入力
タブレットなど表示手段と一体となったものでもよい。
２は、入力すべき文章の分野をあらかじめ設定するため
の分野設定手段であり、入力手段に設けられている。３
は、分野情報のうち必要なものを選択するための分野選
択手段であり、入力手段に設けられている。

【００２１】４は、入力された文字や予測文字などを表
示するための表示手段である。５は、入力手段および出
力手段の各信号を制御するための入出力制御手段であ
る。

【００２２】６は、装置全体の制御を行うための中央処
理装置である。７は、入力手段からの手書き入力文字を
認識するための文字認識手段であり、ＲＯＭ（Read Onl
y Memory）やＨＤ（Hard Disk）に格納されたプログラ
ムコードである。８は、文字認識手段で参照される文字
認識辞書を格納するためのメモリであり、ＲＯＭやＨＤ
に格納されたデータである。９は、文字認識結果を格納
するためのメモリであり、ＲＡＭ（Random Access Memo
ry）上に設けられている。

【００２３】１０は、入力文字列を格納するためのメモ
リであり、ＲＡＭ上に設けられている。１１は、入力状
態を入力状態フラグにセットするための入力状態設定手
段であり、ＲＯＭやＨＤに格納されたプログラムコード
である。１２は、１１で設定される入力状態フラグを格
納するためのメモリであり、ＲＡＭ上に設けられてい
る。

【００２４】１３は、単語辞書の検索キーになる入力メ
モリ内の文字列の更新および、検索キーを参照するため
の位置情報を設定するための検索キー設定手段であり、
ＲＯＭやＨＤに格納されたプログラムコードである。１
４は、入力文字列をもとに単語辞書を検索する単語辞書
検索手段であり、ＲＯＭやＨＤに格納されたプログラム
コードである。

【００２５】１５は、単語辞書検索手段や形態素解析手
段で参照される単語辞書を格納するためのメモリであ
り、ＲＯＭやＨＤに格納されたデータである。１６は、
単語辞書の検索結果を格納するためのメモリであり、Ｒ
ＡＭ上に設けられている。

【００２６】１７は、漢字の分野情報および分野学習デ
ータをもとに、検索結果候補の優先度を評価するための
評価手段であり、ＲＯＭやＨＤに格納されたプログラム
コードである。１８は、漢字の分野情報を格納するため
のメモリであり、ＲＯＭやＨＤに格納されたデータであ
る。１９は、評価結果を格納するためのメモリであり、
ＲＡＭ上に設けられている。

【００２７】２０は、既に入力された文字列から漢字の
分野情報を学習するための学習手段であり、ＲＯＭやＨ
Ｄに格納されたプログラムコードである。２１は、学習
手段によって学習された分野情報を格納するためのメモ
リであり、ＲＡＭ上に設けられている。

【００２８】２２は、既に入力された文字列を形態素解
析するための形態素解析手段であり、ＲＯＭやＨＤに格
納されたプログラムコードである。２３は、既に入力さ
れた文章を格納するためのメモリであり、ＨＤやＦＤな
どの書き込み可能なメモリである。

【００２９】２４は、分野選択手段で選択された分野情
報を格納するためのメモリであり、ＲＡＭ上に設けられ
ている。２５は、分野設定手段で設定された分野情報を
格納するためのメモリであり、ＲＡＭ上に設けられてい
る。

【００３０】２６は、表示手段に表示される予測文字列
を格納するためのメモリであり、ＲＡＭ上に設けられて
いる。

【００３１】以下、順に各手段を説明する。まず、入力
状態設定手段１１について説明する。本装置では、手書
きによる文字の直接入力と予測文字の選択を繰り返しな
がら、文字列の入力を行っていく。予測処理の方法とし
ては、既入力文字が単語の一部であると考えて、その文
字を含む単語を検索した上で漢字分野情報を用いて候補
を絞り込む場合や、既入力文字の直後で単語としては分
割されるため、その単語と共起する単語を検索した上で
漢字分野情報を用いて候補を絞り込む場合がある。

【００３２】前者の方法は、入力された文字が単語を構
成する文字の一部であると考えて文字の予測を行うもの
であり、後者の方法は、入力された文字が単語の切れ目
であると考えて文字の予測を行うものである。したがっ
て、予測候補として表示した文字が選択された場合は該
文字が単語の切れ目である可能性が高い。このため現
在、手書き入力がなされた直後であるのか、予測文字の
選択がなされた直後であるのかによって、予測処理の起
動を制御する。

【００３３】以上のことから、予測文字の選択によって
入力された文字の直後は単語の切れ目である可能性が高
いので、共起単語の検索による予測処理のみを起動し、
手書き入力によって入力された場合は、両方の予測処理
を起動する。このように入力状態設定手段では、直前文
字が手書き入力された文字なのか予測文字から選択され
た文字なのかによって、その状態を判定し入力状態フラ
グに値を設定する。なお、実施例では手書き入力の直後
の状態に１、選択入力の直後の状態に０を割り当ててい
る。

【００３４】例えば「会議」と入力したい場合に、手書
きで「会」が入力された時点で状態フラグに１をセット
し、予測文字「員、議、談、長」から「議」が選択され
た時点で状態フラグに０をセットする。この処理を入力
状態設定手段１１により行い、入力状態フラグメモリ１
２に記憶する。

【００３５】検索キー設定手段１３について説明する。
手書き文字認識を経て手書き入力された文字は、入力メ
モリ１０の後部へ追加格納される。入力メモリ内の文字
列は単語辞書を検索する際のキーになり、検索キー設定
手段１３では、この検索キーとなる入力メモリの管理を
行う。

【００３６】ある漢字をキーに検索した予測文字が選択
された場合は、該予測文字の後ろが単語の区切りとなる
可能性が高い。このため、入力状態フラグが状態０（予
測文字が選択された直後）で手書き入力がなされた（入
力状態フラグは状態１へ遷移）場合は、新たな単語の文
字が入力されたと考え、選択入力された文字以前は棄却
する。このような入力メモリの初期化処理は、入力状態
設定手段において入力状態フラグが状態０から状態１に
設定される場合と同期してなされる。

【００３７】また、入力状態フラグが状態１である場合
にさらに手書き入力がなされたときは、単語の切れ目と
は判断できないため入力メモリの末端へ追加格納する。
なお、手書きによる文字の入力が連続すると入力メモリ
内に文字がたまってくる。このような場合、格納された
長い文字列は一般的に複数の単語から構成されている可
能性が高くなり、辞書を検索しても一致しない。

【００３８】そのために、入力メモリ内の文字列が一定
値を越えたら、最初に格納された文字から棄却してい
く。なお、この一定値は検索する単語辞書に登録されて
いる単語の長さ、検索されうる候補の数、装置の処理速
度、表示画面の大きさなどの条件に応じて決定されるも
のであるが、単語の表記を構成する漢字の平均字数付近
が適当である。

【００３９】単語辞書検索手段１４について説明する。
入力メモリ内の末端部分の文字が、単語の一部であると
して文字予測を行う場合、入力メモリ内の該文字を表記
の先頭に持つ単語を単語辞書から検索する。この場合の
単語辞書は少なくとも単語単位で表記情報を備えた構造
を持つものである。なお、後述する形態素解析手段と共
有する場合にはさらに品詞などの文法情報も必要にな
る。

【００４０】例えば、入力メモリの内容が「下」であっ
た場合の動作は、まず入力メモリ１０に格納されている
文字「下」を検索キーにして、「下」を表記の１文字目
に持つ単語、「下位、下記、下級生、下降、下流、下
校、下車、下顎、…」などを検索する。次に、検索した
各単語から入力文字「下」以降の残り文字を切り出し予
測候補文字とする。この場合には「位、記、級生、降、
流、校、車、顎、…」を切り出し、検索結果メモリ１６
へ格納する。

【００４１】入力メモリ内の文字が２文字以上である場
合は、先頭文字からのみ検索、あるいは、全文字位置か
ら検索する方法がある。例えば、入力文字が「日本」で
あれば、「日」からのみ検索した場合は、「日本」を表
記の１、２文字目に持つ単語「日本一、日本海、日本
語、日本車、日本脳炎、日本晴れ、…」などを検索す
る。あるいは、全文字位置から検索するのであれば、前
記候補に加えて「本」からも検索を行い、「本」を表記
の１文字目に持つ単語「本位、本意、本因坊、本屋、
…」などを検索する。

【００４２】また、入力メモリ内の末端文字の直後は、
単語の切れ目であるとして文字予測を行う場合は、入力
メモリ内の文字列を単語として、該単語と共起する単語
を単語辞書から検索する。この場合の単語辞書は、少な
くとも表記情報を備えた、共起単語のペア情報が格納可
能な構造を持つものである。

【００４３】例えば、入力メモリの内容が「開発」であ
った場合の動作は、入力メモリ１０に格納されている文
字「開発」を検索キーにして「開発」と共起する単語、
「手順、委託、意図、途上、援助、…」などを検索す
る。次に、検索した各単語から先頭文字を切り出し予測
候補文字とする。この場合には「手、委、意、途、援、
…」を切り出し、検索結果メモリ１６へ格納する。ある
いは、各単語表記すべてを予測候補文字としてもよい。

【００４４】次に、本発明におけるポイントとなる漢字
分野情報について説明する。漢字の分野情報とはｎ個の
分類ラベル（以後、分野と呼ぶ）を個々の漢字について
定義したものである。分野の具体例としては「政治」
「経済」「教育」「芸術」といったもので、これらは必
要に応じて定義の細分化がなされてもよい。

【００４５】そして、個々の漢字に対して、これらｎ個
の分野との関連度を数値化して、その漢字の分野情報と
して与える。図８は漢字分野情報メモリ１８の構成を示
す模式図である。図中（ａ）は漢字表記の格納部分で、
実際にはＪＩＳコードが昇順に格納されている。図中
（ｂ）は各漢字に付加した分野情報の格納部分である。
分野情報はｎ次元のベクトル値（もしくはｎ次元空間の
座標）として扱うことができ、以下便宜上、 vec（”校”）＝（a1，a2，a3，…）のように表す。この場合、ベクトルの各成分が個々の分
野に対応する。なお、分野情報はすべての漢字に与えな
くてもよく、必要な漢字に限定してもかまわない。

【００４６】漢字の分野情報の作成については、個々の
分野と漢字との関連度を逐一設定してもよい。あるい
は、大量の文章データを分野をキーにして分類し、分類
された文章データ中の各漢字の出現回数の統計値をとっ
て該分野との関連度を算出する方法もある。あるいはこ
れらの方法を組み合わせて分野情報の精度を向上させて
いくことも可能である。

【００４７】学習手段２０について説明する。学習手段
は、既に入力されている文章全体がどの分野と関連があ
るかを表す分野の学習情報（以後、学習分野と呼ぶ）を
求めるものである。学習分野の抽出には前記各漢字の分
野情報を用いる。既に入力されている文章中の各漢字に
対して、漢字分野情報メモリ１８からそれぞれの分野情
報を検索する。そして、検索した分野情報を後述する一
定式にもとづき計算し、学習分野を得る。計算の結果は
学習メモリ２１に格納する。

【００４８】学習分野は、以下の式にもとづき計算し
た、出現漢字の分野情報のベクトル和である。まず、直
前までに生成されている学習分野を、 vec（学習）＝（k1，k2，k3，…）で表す。この状態で、新たに前記の漢字「校」が出現し
た場合、学習分野は、 vec（学習）’＝（k1+a1，k2+a2，k3+a3，…）のように更新される。図９は学習メモリの内容を示す模
式図である。

【００４９】また、単純にベクトル和を求めると、各ベ
クトル成分が蓄積されていくため、分野間の差異が小さ
くなり、学習分野が飽和状態に（どの分野も一様に関連
度が高く）なってしまう。この問題を解決するために、
各ベクトル成分に対して、漢字の出現数による平均化を
行う。ベクトル和である学習分野の値が、 vec（学習）＝（K1，K2，K3，…）であり、学習分野の計算を行った漢字の個数をｓとする
と、平均化された学習分野の値は、 vec（学習）’＝（K1/s，K2/s，K3/s，…）＝（K1'，K2'，K3'，…）となる。あるいは、ベクトルの成分値に対して一定の制
限を設け、制限値以下の成分（分野）は初期化してしま
う方法がある。制限値は、固定値あるいは漢字の出現個
数をもとに求められる関数値などがよい。例えば、制限
値をＬ、漢字の出現個数をｓとした場合、Ｌ＝α×ｓ α：一定値で計算された制限値Ｌをもとに、 vec（学習）’＝（k1’，k2’，k3’，…）に対して、各成分のうち制限値Ｌ以下のものは、０に初
期化してしまう。

【００５０】さらに、分野情報を与えられている漢字で
あっても、文章中での使われ方によって学習に悪影響を
及ぼす場合がある。具体的には「星」「輝」「天」など
の漢字は「宇宙・天体」という分野の値が大きい例であ
るが、「星野」「輝雄」「天草」などの単語の一部であ
った場合には、必ずしも文章の分野情報を反映している
とは言えない。このような傾向は、特に固有名詞単語の
漢字表記において顕著である。このため、分野学習の計
算においては、固有名詞中の漢字は除外することが有効
である。これは以下の形態素解析手段において詳述す
る。

【００５１】また、文字の入力に合わせて随時学習デー
タの更新を行うタイミングは、手書き入力による漢字の
入力直後、予測漢字が選択された直後においてそれぞれ
行う。

【００５２】形態素解析手段２２の説明を行う。前記の
ように分野学習においては、文章データを形態素解析し
単語に分割したうえで、固有名詞を除外することが有効
である。

【００５３】形態素解析は、単語辞書をもとに漢字仮名
交じり文字列を、形態素（自立語や助詞など）と呼ばれ
る単位に分割することであり、各文字からの辞書引きを
行い形態素に分割していく。形態素解析に関しては、日
本語の場合、自立語や助詞などからなる文節という単位
をベースにした解析が一般的で、文字列の先頭から辞書
と最も長く一致した候補を優先する最長一致法や、二文
節の長さを足して最も長く一致した候補を優先する２文
節最長一致法、文全体の文節数が最も少なくなるような
候補を優先する文節数最小法などの基本アルゴリズムが
提案されている。なお、形態素解析の処理内容について
は既存の処理でよいため詳細な説明は省く。

【００５４】形態素解析の例としては、入力文字列が
「惑星状星雲は星の中心部の核反応で」であれば、『惑
星（一般名詞）＋状（接尾語）、星雲（一般名詞）＋は
（助詞）、星（一般名詞）＋の（助詞）』という解析結
果が得られる。あるいは、入力文字列が「九州天草でミ
カン畑のパイロット事業に」であれば、『九州（固有名
詞）、天草（固有名詞）＋で（助詞）、ミカン（一般名
詞）＋畑（接尾語）＋の（助詞）、パイロット（一般名
詞）、事業（一般名詞）＋に（助詞）』という結果が得
られる。このような形態素解析の結果を利用すること
で、一般名詞中の漢字「星」については、学習手段で利
用するが、固有名詞中の漢字「天」は利用しないといっ
た制限が可能となる。

【００５５】なお、形態素解析は入力文字列をある程度
の長さ単位で解析して必要がある。このため手書き入力
などでは、入力された文字各々について、入力直後に学
習することができない。よって、句読点や改行など入力
の区切りがあるまで、学習処理を待機することが必要と
なる。例えば、入力されている文字に対して一定文字数
分タイミングを遅らせて学習処理を起動する。

【００５６】入力を断続的に行う場合や、他の装置で作
成した文章を本装置で修正する場合などには、既入力文
章に対する学習データがない。このため、文章メモリへ
読み込んだ際に、一括して学習することが必要となる。
このような場合には、形態素解析による学習データの作
成が可能である。

【００５７】分野設定手段及び分野選択手段の説明を行
う。各漢字に与えられる分野情報はさまざまな文章入力
に対応するため広範囲にわたって分野の設定がなされて
いる。このため、不要な分野情報が悪影響を及ぼす場合
がある。このようなとき、特定分野に集中した内容で文
章入力する場合であれば、必要な分野情報が限定するこ
とで、悪影響を抑制することができる。分野選択手段
は、学習手段において学習される分野のラベルを利用者
が一時的に限定するためのものであり、入力において必
要分野が限られる、あるいは、入力において悪影響があ
る分野が見つかった場合などに分野選択手段において、
必要分野の選択もしくは不要分野の抑制が行える。な
お、分野選択手段で選択された分野ラベルに関する情報
は、選択分野メモリ２４に格納される。

【００５８】たとえば、分野学習の計算において、 vec（学習）＝（k1，k2，k3，k4，k5，k6，…）：学
習分野 vec（漢字）＝（x1，x2，x3，x4，x5，x6，…）：出
現漢字のような状態で、分野ラベルk2およびk5が不要ラベルと
して選択されると、分野学習の計算では、成分k2、k5を
無視して、 vec（学習）’＝（k1+x1，，k3+x3，k4+x4，，k6+x6，
…）と計算する（不要分野に該当する成分は、初期値や不定
でよい）。

【００５９】分野設定手段は、各漢字に割り当てられた
分野情報の内、不要な分野ラベルを学習手段や後述の評
価手段で利用しないようにあらかじめ設定するためのも
のであり、その効果は分野選択手段と同様なものである
が、一時的な設定ではなく再設定されるまで有効なもの
である。なお、分野設定手段で選択された分野ラベルに
関する情報は、設定分野メモリ２５に格納される。

【００６０】たとえば、設定手段で不要と設定された分
野ラベル数をｕとすると、以後、すべての処理において
漢字の分野情報はｎ−ｕ次元のベクトル情報として扱わ
れる。不要分野にあたる成分は初期値や不定でよい。

【００６１】評価手段について説明する。評価手段で
は、学習手段で得られた既入力文章の学習分野と、単語
辞書検索手段で得られた予測候補漢字の持つ分野情報と
の類似度を計算して、候補の優先度を評価する。そし
て、漢字の分野情報をｎ次元のベクトル情報とした場
合、内積計算によって類似度の計算を行う。例えば、予
測時点までの学習分野を、 vec（学習）＝（k1，k2，k3，k4，…）候補漢字の分野情報を、 vec（候補Ａ）＝（a1，a2，a3，a4，…）とした場合、内積＝k1×a1＋k2×a2＋k3×a3＋k4×a4＋… を計算して、内積の大きい候補をより類似度が高いと判
断する。

【００６２】あるいは、分野情報をｎ次元空間の座標と
見なして、座標間の距離が近いほど類似度が高いと判断
する方法もある。

【００６３】距離＝sqrt((k1-a1)²+(k2-a2)²+(k3-a3)²+
(k4-a4)²+…) ※sqrt：平方根を計算して、距離の小さい候補をより類似度が高いと判
断する。

【００６４】また、これら計算に利用する成分に制限を
かけて、類似度計算の精度を上げることが可能である。
これには不要な分野の悪影響を避けるため、学習分野の
各成分に対して、一定値以上のものしか計算に利用しな
い、あるいは、上位何個かの成分しか計算に利用しない
という方法がある。一定値の設定は分野情報中の各分野
との関連度の設定幅に応じて実験的に決定する。

【００６５】さらに、分野設定手段で、使用する分野情
報があらかじめ設定されている場合は、その分野に該当
する成分のみを用いて類似度計算を行う。なお、漢字に
よっては分野情報が与えられていない場合もあり、その
場合は類似度計算は行わない。

【００６６】評価手段の動作例としては、直前に入力さ
れた文字「高」をキーに単語検索を行い「一、圧、温、
音、価、額、級、校、裁」が検索されると、次に、各漢
字の分野情報を漢字分野情報メモリ１８から検索する。
そして、各漢字の分野情報と学習分野とを上記計算方法
にもとづき計算する。その結果、優先順位「校、温、
音、圧、級、価、額、裁、一」が決定する。

【００６７】また、入力文字によっては検索された候補
の文字数が異なる場合がる。例えば、入力文字「下」に
対して、「位、記、級生」が検索された場合などであ
る。この場合、各漢字に対する類似度の和を求めたので
は、文字数のより多い候補が優先されてしまうことが多
い。したがって、複数文字からなる候補については、最
も類似度の高い１文字を選んで候補の代表値としたり、
類似度の和を文字数で割って平均化するなどの処理が必
要である。なお、優先度の決定した各候補は、優先度順
に出力メモリ２６に格納される。

【００６８】表示手段について説明する。予測候補は表
示手段中に一覧表示することで、候補全体の視認性を高
め、候補選択操作の効率化が図れる。また、評価手段で
評価した結果、最も優先度の高い候補は選択される可能
性が高い。このため、あらかじめ手書き入力を行うため
の領域に表示することで、利用者が求める表記であった
場合の選択の手間を省くことが可能である。

【００６９】文字認識手段及び入力手段について説明す
る。本装置の入力手段は、表示手段と一体化された、例
えば、ペン入力タブレットなどの手書き入力機能を持つ
ものを前提としている。さらに、手書き入力において
は、漢字や仮名の入力が可能な手書き文字認識手段を必
要とする。なお、入力手段、文字認識手段に関しては既
存の技術でよいため、詳細な説明は省く。

【００７０】以下、図２〜図７の処理フローチャートに
従い、処理の流れを説明する。処理の大まかな流れは図
２に示すものであり、各部の初期設定（２０１）を行な
った後、学習関連の前処理（２０２）を行う。これ以降
は、入力手段１からの入力信号待ち状態（２０３）とな
り、入力された信号に応じて処理を移す。入力信号が処
理の終了要求であった場合には、装置は処理を終了す
る。そうでない場合には、文字の入力に関連する信号で
あるため、文字入力処理（２０４）を起動する。

【００７１】図３に初期設定（第２図２０１）の処理の
流れを示す。まず、装置は入力状態設定手段１１におい
て入力状態フラグ１２に０を設定する（３０１）。ただ
し、この場合は入力メモリが初期状態であるため、文字
の予測処理は起動されない。次に、分野選択手段３を備
える装置では、分野選択要求があった場合（３０２）、
選択された分野情報を選択分野メモリ２４に設定する
（３０３）。図１０は、分野選択を行う場合の、入力お
よび表示手段の様子を表す模式図である。さらに、分野
設定手段２を備える装置では、分野設定要求があった場
合（３０４）、設定された分野情報を設定分野メモリ２
５に設定する（３０５）。図１１は、分野選択を行う場
合の、入力および表示手段の様子を表す模式図である。

【００７２】図４に学習前処理（図２−２０２）の処理
の流れを示す。学習前処理は学習手段２２において、外
部記憶媒体などから文章を読み込んできた場合に、一括
して学習分野を作成する処理である。まず、文章データ
を文章メモリ２３に読み込む（４０１）。次に、学習メ
モリ２１に設けられた文章ポインタに０を設定する（４
０２）。なお、文章ポインタは、文章メモリ中の文字列
が格納されているアドレスを指す変数で、０は文章の先
頭を指しているものとする。

【００７３】そして、文章ポインタが文章末であるかを
調べ（４０３）、文章末でなかった場合には、文章ポイ
ンタの指す位置から文章データを切り出す（４０４）。
文章データの切り出しは句読点や改行などの文章の切れ
目単位で行う。切り出した文章データに対して形態素解
析手段２２において、形態素解析処理を行う（４０
５）。次に、学習メモリ２１に設けられた文字ポインタ
に０を設定する（４０６）。なお、文字ポインタは、形
態素解析の対象となっている文字列の格納先のアドレス
を指す変数で、０は文字列の先頭を指しているものとす
る。

【００７４】そして、文字ポインタが文字列末であるか
を調べ（４０７）、文字列末でなかった場合には、文字
列ポインタの指す各文字を調べる。まず、文字が漢字で
ある場合（４０８）、形態素解析の結果を参照して固有
名詞と解析された単語の一部かどうかを調べる（４０
９）。漢字であり固有名詞中の表記でもない場合には、
漢字分野情報１８から該当する分野情報を検索する（４
１０）。そして、検索された分野情報を用いて学習メモ
リ２１内の学習分野の値を更新し（４１１）、学習メモ
リへ格納しなおす。文字ポインタの指す漢字に分野情報
が付加されていない場合には、学習分野の計算は行わな
い。そして、文字ポインタを１文字分更新（４１２）し
て４０７へ戻る。４０８において文字が漢字でなかった
場合と、４０９で固有名詞中の表記であった場合には、
文字ポインタの更新を行って４０７へ戻る。４０７にお
いて、文字ポインタが文字列末に到達した場合は、文章
ポインタを次の文章の先頭アドレスまで更新（４１３）
して、４０３へ戻る。４０３で文章ポインタが文章末に
到達した場合は、学習前処理を終える。

【００７５】図５に文字入力処理（図２−２０４）の処
理の流れを示す。まず、手書きによる文字入力処理であ
った場合（５０１）、文字認識手段７において文字認識
処理を行う（５０２）。そして、認識された結果は認識
結果メモリ９に格納され、表示手段４の文章表示エリア
に入力された該文字を表示する（５０３）。

【００７６】また本装置では、予測候補が複数あった場
合には評価手段において最も優先度の高い候補を手書き
入力エリアに表示し、残りの候補は異なる位置に一括表
示する構成をとっている。さらに、予測候補が表示され
た状態で予測文字の次の入力エリアに手書き入力がなさ
れた場合は、手書き入力と同時に予測候補の選択もなさ
れたと判断する。このような場合は、予測文字と手書き
入力文字をあわせて文章表示エリアに表示する。手書き
入力による予測文字が上書きされた場合は、予測文字が
棄却されたと判断して手書き入力文字のみを文章表示エ
リアに表示する。

【００７７】次に、入力された文字（選択された文字も
含む）が漢字であった場合には、学習手段２０において
学習分野の更新を行う（５０５）。この場合の処理で
は、形態素解析手段による処理などは行わず、図４の４
０６から４１２までの処理のみを行う。

【００７８】また５０１において、入力信号が手書きに
よる文字の入力ではなくて、入力エリア外に一括表示さ
れていた予測候補の選択であった場合には（５０１）、
選択された候補と優先候補とを入れ替えて文章表示エリ
アに表示する（５０４）。

【００７９】次に、入力状態設定手段１１において、手
書き入力であれば現在の入力状態フラグを退避した上
で、あらたに入力状態フラグを１にセットする（５０
６）。選択入力であった場合には、入力状態フラグを０
にセットする。

【００８０】そして、検索キー設定手段１３において、
入力状態フラグメモリ１２を参照して入力メモリ１０の
更新（５０７）を行う。入力状態フラグが状態０から状
態１へ遷移した場合は、入力メモリを初期化した後、あ
らたに文章表示エリアに追加表示された文字を入力メモ
リへ格納する。入力状態フラグが状態１のままである場
合は、該文字を入力メモリの末尾へ格納する。入力フラ
グが状態０の場合は、該文字を入力メモリの末尾へ格納
する。図１２は初期状態において手書き入力により文字
「高」が入力された場合に、入力メモリに文字「高」が
格納された様子を表す模式図である。また、図１３は、
文字「高」に続き予測候補が選択されずに文字「気」が
入力された場合の、入力メモリの様子を表す模式図であ
る。

【００８１】次に、入力状態フラグが状態１の場合（５
０８）、入力メモリ内の文字を含む単語を検索して後続
文字の予測を行う文字予測処理１を起動する（５０
９）。

【００８２】図６に文字の予測処理１（図５−５０９）
の処理の流れを示す。まず、検索結果メモリ１６に設け
られた文字ポインタに０を設定する（６０１）。なお、
文字ポインタは、単語検索の対象となっている入力メモ
リ１０中の文字列の格納先アドレスを指す変数で、０は
文字列の先頭を指しているものとする。

【００８３】次に、文字ポインタが入力メモリ中の文字
列末を指しているかを調べる（６０２）。文字列末でな
ければ、文字列の先頭から文字列ポインタの指す文字ま
でを検索キーとして、単語辞書検索手段１４において単
語辞書の検索を行う（６０３）。この際検索する辞書は
少なくとも表記情報を単語毎に格納した辞書である。検
索された単語候補は、検索キーの部分を除いて検索結果
メモリ１６に格納される（６０４）。

【００８４】次に、文字列ポインタを１文字分更新して
６０２へ戻る。６０２において、文字列ポインタが文字
列末を指していた場合は、次に、評価結果メモリ１９に
設けられた候補ポインタに０を設定する（６０６）。な
お、候補ポインタは、検索結果メモリ１６に格納された
予測文字の候補である検索結果文字列の格納先アドレス
を指す変数で、０は先頭候補を指しているものとする。
次に、候補ポインタが最終候補の次を指しているかを調
べる（６０７）。最終候補の次でなければ、評価結果メ
モリ１９に設けられた文字ポインタに０を設定する（６
０８）。なお、文字ポインタは、検索結果メモリに格納
された予測文字候補の内、候補ポインタが現在指してい
る候補文字列の格納先アドレスを指す変数で、０は候補
文字列の先頭を指しているものとする。

【００８５】そして、文字ポインタが文字列末を指して
いるかを調べ（６０９）、文字列末でなければ、文字ポ
インタが指している文字の分野情報を、漢字分野情報メ
モリ１８から検索する（６１０）。次に、検索された分
野情報をもとに分野の類似度計算を行い（６１１）、評
価結果を評価結果メモリ１９に格納する。なお、分野情
報が検索されなかった場合は、類似度計算は行わずデフ
ォルト（たとえば０）の評価値を与えて処理を終える。
そして、文字ポインタを１文字分更新して（６１２）、
６０９へ戻る。６０９で文字ポインタが文字列末に到達
した場合は、先に計算した類似度に対して文字数による
平均化処理を行い（６１３）、再計算して平均化された
類似度を評価結果メモリへ格納しなおす（６１４）。な
お、文字数が１の場合は平均化処理は行わない。そし
て、候補ポインタを次の候補まで更新して（６１５）、
６０７へ戻る。６０７で最終候補の次へ到達した場合に
は、評価結果メモリを参照し、類似度の高い順に候補を
出力メモリ２６へ書き出し（６１６）、処理を終了す
る。図１４は、入力文字「高」に対する、後続文字の予
測結果「校、温、音、気圧、圧、級、価、額、裁、一」
が出力メモリに格納された様子を表す模式図である。

【００８６】文字予測処理１（図５−５０９）の終了
後、もしくは、入力状態フラグが０であった場合（５０
８）は、次に、入力メモリ内の文字と共起する単語を検
索して後続文字の予測を行う文字予測処理２を起動する
（５１０）。

【００８７】図７に文字の予測処理２（図５−５１０）
の処理の流れを示す。まず、入力メモリ１０に格納され
た文字を検索キーとして、単語辞書検索手段１４におい
て単語辞書の検索を行う（７０１）。この際検索する辞
書は、少なくとも表記情報を単語毎にもち、共起する単
語のペアを格納した辞書である。検索された単語候補
は、検索結果メモリ１６に格納される（７０２）。な
お、実施例では入力メモリ内の文字列をひとかたまりと
して唯一の検索キーとしているが、文字予測処理１と同
様に入力メモリ内の文字列を部分的に切り出し、複数の
検索キーとしてもよい。

【００８８】次に、評価結果メモリ１９に設けられた候
補ポインタに０を設定する（７０３）。なお、候補ポイ
ンタは、検索結果メモリ１６に格納された予測文字の候
補である検索結果文字列の格納先アドレスを指す変数
で、０は予測処理２で検索された先頭候補を指している
ものとする。次に、候補ポインタが最終候補の次を指し
ているかを調べる（７０４）。最終候補の次でなけれ
ば、評価結果メモリ１９に設けられた文字ポインタに０
を設定する（７０５）。なお、文字ポインタは、検索結
果メモリに格納された予測文字候補の内、候補ポインタ
が現在指している候補文字列の格納先アドレスを指す変
数で、０は候補文字列の先頭を指しているものとする。

【００８９】そして、文字ポインタが文字列末を指して
いるかを調べ（７０６）、文字列末でなければ、文字ポ
インタが指している文字の分野情報を、漢字分野情報メ
モリ１８から検索する（７０７）。次に、検索された分
野情報をもとに分野の類似度計算を行い（７０８）、評
価結果を評価結果メモリ１９に格納する。なお、分野情
報が検索されなかった場合は、類似度計算は行わずデフ
ォルト（たとえば０）の評価値を与えて処理を終える。
そして、文字ポインタを１文字分更新して（７０９）、
７０６へ戻る。

【００９０】７０６で文字ポインタが文字列末に到達し
た場合は、先に計算した類似度に対して文字数による平
均化処理を行い（７１０）、再計算して平均化された類
似度を評価結果メモリへ格納しなおす（７１１）。な
お、文字数が１の場合は平均化処理は行わない。そし
て、候補ポインタを次の候補まで更新して（７１２）、
７０４へ戻る。７０４で最終候補の次へ到達した場合に
は、評価結果メモリを参照し、類似度の高い順に候補を
出力メモリ２６へ書き出し（７１３）、処理を終了す
る。

【００９１】なお、図１５から図２０までは、入力及び
表示手段の様子をあわらす模式図である。図１５は、手
書き入力により文字「高」が入力された場合であり、図
中ａは入力された文章データを表示する文章表示エリ
ア、ｂは手書き入力を行うための手書き入力エリア、ｃ
は予測文字の候補を一覧表示するための予測候補一覧表
示エリアであり、図１６以下も同様である。

【００９２】図１６は、文字「高」に対して、直前まで
に入力されていた文章の学習分野をもとに予測処理を起
動し、予測候補「校、温、音、圧、気圧、級、価、額、
裁、一」が得られた場合、図１７は、図１６に示した入
力文字「高」に対する予測文字の第１候補「校」が採用
され、連続して次の文字「野」が入力された場合、図１
８は、図１６で示した入力文字「高」に対する予測文字
の「額」が候補一覧エリアで選択された場合、図１９
は、図１８において選択された予測候補「額」を、入力
エリアに再表示した場合、図２０は、図１６に示した予
測文字の各候補が選択されず、第１候補「校」の部分に
文字「機」が上書き入力された場合を、それぞれ表して
いる。

【００９３】

【発明の効果】本発明によれば、利用者による指示要求
を必要とせず、装置が自動的に後続文字の予測を行うた
めに効率のよい文字入力が行える。また、予測候補が多
い場合でも、漢字分野情報による優先度評価を行うた
め、候補選択の負担が軽減される。そして、漢字分野情
報を細分化することで、幅広い内容の文章に応じた予測
が可能となう。また、入力される文章に即して漢字の分
野学習を行うため、文章内容の変化にも対応が可能であ
り、文章の内容によらず文字の予測が可能である。

【００９４】また、本発明においては、直前までの入力
履歴は必要ではなく、初めて入力される文字列に対して
予測が可能となる。漢字分野情報は漢字単体に与える情
報であるため、データの組み合わせによる爆発的なデー
タの増加がなく、必要とするデータの絶対量は小さくな
る。

【００９５】漢字の分野情報は基本的に漢字の出現頻度
の抽出で可能であり、既入力文章の分野情報を一括して
得るための前処理においても、漢字の照合は単語の照合
よりも処理負担が軽く、高速容易に実現可能である。

【００９６】また、同種の内容の文章を入力する機会が
多い利用者についても、分野情報を個別に設定すること
で、分野学習がより正確に行え、予測の精度が向上す
る。入力する文章の分野が既知である場合も同様であ
る。

【図面の簡単な説明】

【図１】本発明の一実施の形態における装置の基本構成
図である。

【図２】本発明の一実施の形態における処理の流れを示
すフローチャートである。

【図３】本発明の一実施の形態における処理の流れを示
すフローチャートである。

【図４】本発明の一実施の形態における処理の流れを示
すフローチャートである。

【図５】本発明の一実施の形態における処理の流れを示
すフローチャートである。

【図６】本発明の一実施の形態における処理の流れを示
すフローチャートである。

【図７】本発明の一実施の形態における処理の流れを示
すフローチャートである。

【図８】漢字分野情報の内容を示す模式図である。

【図９】学習メモリの内容を示す模式図である。

【図１０】分野選択処理を起動した場合の入力および表
示手段の様子を表す模式図である。

【図１１】分野設定処理を起動した場合の入力および表
示手段の様子を表す模式図である。

【図１２】入力メモリの内容を示す模式図である。

【図１３】入力メモリの内容を示す模式図である。

【図１４】出力メモリの内容を示す模式図である。

【図１５】入力および表示手段の様子を表す模式図であ
る。

【図１６】入力および表示手段の様子を表す模式図であ
る。

【図１７】入力および表示手段の様子を表す模式図であ
る。

【図１８】入力および表示手段の様子を表す模式図であ
る。

【図１９】入力および表示手段の様子を表す模式図であ
る。

【図２０】入力および表示手段の様子を表す模式図であ
る。

【符号の説明】

１入力手段２分野設定手段３分野選択手段４表示手段５入出力制御手段６中央処理装置７文字認識手段８文字認識辞書メモリ９認識結果メモリ１０入力メモリ１１入力状態設定手段１２入力状態フラグメモリ１３検索キー設定手段１４単語辞書検索手段１５単語辞書メモリ１６検索結果メモリ１７評価手段１８漢字分野情報メモリ１９評価結果メモリ２０学習手段２１学習メモリ２２形態素解析手段２３文章メモリ２４選択分野メモリ２５設定分野メモリ

Claims

【特許請求の範囲】

【請求項１】入力された文字に基づいて、後続する文
字列を予測し、複数の予測文字列から選択を行うことで
文字を入力する文字入力装置であって、少なくとも単語の表記情報及び分野情報を格納した単語
辞書と、入力された文字に基づいて前記単語辞書を検索する単語
検索手段と、各漢字に対して分野情報を付加した漢字分野情報に基づ
き、過去に入力された文字列中の漢字から分野情報を取
得する学習手段と、前記学習手段により得られた分野情報に基づいて、前記
単語検索手段により検索された単語候補の優先づけを行
う評価手段を備えたことを特徴とする文字入力装置。
【請求項２】前記分野情報は、ｎ個の分野ラベルからなり、各ラベルには分野との関連度を数値化したものが記憶さ
れ、各漢字に対してｎ次元のベクトル情報として分野情報を
構成することを特徴とする前記請求項１記載の文字入力
装置。
【請求項３】前記評価手段は、候補の優先づけにおいて、前記学習手段により得られる
ｎ次元ベクトルの漢字分野情報と、各単語候補のｎ次元ベクトル化された漢字分野情報の内
積を算出し、値の大きい候補を優先することを特徴とす
る前記請求項２記載の文字入力装置。
【請求項４】前記分野情報は、ｎ個の分野ラベルからなり、各ラベルには分野との関連度を数値化したものが記憶さ
れ、各漢字に対してｎ次元空間の座標情報として分野情報を
構成するものであり、前記評価手段は、候補の優先づけにおいて、前記学習手段により得られる
ｎ次元座標化された漢字分野情報と、各候補のｎ次元座
標化された漢字分野情報の距離を算出し、値の小さい候
補を優先することを特徴とする前記請求項１記載の文字
入力装置。
【請求項５】前記単語辞書は少なくとも表記情報、分
野情報及び品詞情報から構成され、前記単語辞書に基づいて文字列から単語を切り出し、品
詞を特定する形態素解析手段を備え、前記学習手段は、過去に入力された文字列を前記形態素
解析により単語に分割し、所定の単語についてのみ分野
情報を得ることを特徴とする前記請求項１記載の文字入
力装置。
【請求項６】前記学習手段は、過去に入力された文字
列を前記形態素解析手段により単語に分割し、固有名詞
については分野情報を取得しないことを特徴とする前記
請求項１記載の文字入力装置。
【請求項７】漢字分野情報を構成する各分野ラベルの
うち、操作者が入力する文章に即した分野情報を予め設
定する分野設定手段を備え、前記評価手段において、前記分野設定手段により設定さ
れた分野の分野ラベルに基づいて優先候補を決定するこ
とを特徴とする前記請求項２〜４記載の文字入力装置。