JPH1185761A

JPH1185761A - 未知語登録装置および方法並びに記録媒体

Info

Publication number: JPH1185761A
Application number: JP9256034A
Authority: JP
Inventors: Yasuo Koyama; 泰男小山
Original assignee: EE I SOFT KK
Current assignee: EE I SOFT KK
Priority date: 1997-09-03
Filing date: 1997-09-03
Publication date: 1999-03-30
Anticipated expiration: 2017-09-03
Also published as: JP3581237B2

Abstract

(57)【要約】【課題】辞書データへの未知語自動登録装置では、仮
名、漢字、英字等が混じって入力された日本語の文章か
らの未知語の抽出、および該未知語の品詞の推定をする
ことができなかった。【解決手段】コンピュータにより、入力された日本語
文字列を辞書を参照しつつ形態素解析して文節に分かち
書きし、該結果に基づいて前記辞書に存在しない未知語
を、前記日本語文字列から抽出する。また、該未知語に
前接または後接する語である連接語を、前記入力された
日本語文字列から少なくとも一つ抽出する。次に、未知
語に含まれる文字構成に基づいて品詞を判定する。ま
た、連接語の構成、又は連接語の言語的属性（品詞およ
び接頭語・接尾語の意味等）によっても該未知語の品詞
を判定する。さらに未知語の全ての読みを推定した上
で、判定された品詞および全ての読みを含めて未知語に
関するデータを辞書に追加登録する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、日本語入力装置に
おいて参照される辞書に存在しない未知語を、その品詞
を推定した上で、該辞書に自動登録する技術に関する。

【０００２】

【従来の技術】従来、日本語入力装置の一つとして、キ
ーボードなどから入力された仮名文字列を所望の仮名漢
字混じり文に変換する種々の仮名漢字変換装置が提案さ
れている。仮名漢字変換装置は、予め用意された辞書を
参照することにより、入力された仮名文字列に対応する
漢字表記を検索し、仮名文字列を各表記に変換する装置
である。

【０００３】かかる仮名漢字変換装置で日本語を正確に
入力するためには、前記辞書に豊富な単語が登録されて
いることが重要となるが、実際に使用される全ての単語
を登録した辞書を作成することは非常に困難である。仮
名漢字変換装置の使用者が用いる用語はその使用者が入
力する内容によってまちまちであり、また、日常生活に
おいても多種多様な単語が新語として作り出されている
からである。更に、住所、氏名や商品名等まで辞書に登
録しようとすることは、ほとんど不可能に近い。かかる
課題を解決しつつ、使用者にとっての利便性を確保すべ
く、多くの仮名漢字変換装置は予め基本的な単語のみを
登録した辞書を用意しておき、該辞書に存在しない単語
については、使用者が前記辞書に新たな単語、即ち未知
語を追加登録できる機能を設けている。また、かかる未
知語を自動的に検出し、前記辞書に自動登録する装置も
提案されている（特開平６−１２４５３等）。

【０００４】上記仮名漢字変換装置では、入力された日
本語文を使用者が望んだ表記に正確に変換するために、
文節分かち書きの処理を工夫している。文節分かち書き
の処理とは、例えば「くるまではこをはこぶ」と入力さ
れた仮名文字列を、辞書に登録された各単語の品詞情報
等を参照することで、「くるまで／はこを／はこぶ」と
解析する処理をいう（例えば、特開平７−２９５９７５
等）。文節分かち書きの精度を向上するためには、辞書
に前記未知語を追加登録する際に、その品詞も合わせて
登録することが必要となる。

【０００５】一方、日本語入力装置として、最近、日本
語の文章をスキャナ等で取り込んだイメージ情報から、
そこに記載されている文字を認識し、文字データに変換
する装置、いわゆるＯＣＲ装置も普及している。かかる
装置では、イメージ情報から文字データへの変換精度、
つまり識字率を向上するために、一文字単位での変換の
みならず、入力された日本語文字列を前記辞書を参照し
て文節分かち書きし、単語単位で適切な文字への変換を
行うことがなされている。従って、このような機能を有
するＯＣＲ装置における識字率を向上するためには、充
実した辞書を備えることが重要となり、仮名漢字変換装
置の場合と同様、未知語を辞書に追加登録することが重
要となる。この際においても、該未知語の品詞も合わせ
て登録することが必要となる。

【０００６】

【発明が解決しようとする課題】しかし、上記仮名漢字
変換装置における未知語の登録機能では、品詞を自動推
定することはできなかった。つまり、使用者が未知語の
品詞を判定し、品詞リスト中から選択する方法等によっ
て入力していた。このため、辞書における品詞情報の重
要性を理解した上で、使用者が適切な品詞を選択するこ
とは困難であった。未知語の品詞が適切に登録されない
場合には、文節分かち書きの精度、ひいては仮名漢字変
換の精度および識字率が向上できなかった。

【０００７】また、従来より存在する未知語の自動登録
機能は、仮名漢字変換装置を対象としたものであり、Ｏ
ＣＲ装置のように仮名、漢字、英字等が混じって入力さ
れた日本語の文章から未知語を抽出することはできなか
った。従って、ＯＣＲ装置では、識字率向上のために使
用者が辞書に未知語を登録する必要があった。

【０００８】本発明は上記課題の少なくとも一部を解決
するためになされ、仮名、漢字、英字等が混じって入力
された日本語の文章から未知語を抽出し、該未知語の品
詞を推定した上で辞書に自動登録する技術を提供するこ
とを目的とする。

【０００９】

【課題を解決するための手段およびその作用・効果】上
記課題の少なくとも一部を解決するために、本発明では
次の構成を採った。本発明の第１の未知語登録装置は、
品詞データを含む辞書を備え、日本語文字列を入力する
日本語入力装置において参照される前記辞書に存在しな
い未知語を、該辞書に自動登録する未知語登録装置であ
って、入力された日本語文字列を、前記辞書を参照して
文節に分かち書きする手段と、該分かち書き結果に基づ
いて、前記辞書に存在しない未知語を、前記入力された
日本語文字列から抽出する未知語抽出手段と、該未知語
に前接または後接する語である連接語を、前記入力され
た日本語文字列から少なくとも一つ抽出する連接語抽出
手段と、該連接語の構成、または前記辞書に記憶されて
いる前記連接語の言語上の属性を示すデータに基づいて
該未知語の品詞を判定する品詞判定手段と、前記判定さ
れた品詞を含めて前記未知語に関するデータを前記辞書
に追加登録する追加登録手段とを備えることを要旨とす
る。

【００１０】また、本発明の第１の未知語登録方法は、
品詞データを含む辞書を備え、日本語文字列を入力する
日本語入力装置において参照される前記辞書に存在しな
い未知語を、コンピュータにより該辞書に自動登録させ
る未知語登録方法であって、入力された日本語文字列
を、前記辞書を参照して文節に分かち書きさせ、該分か
ち書き結果に基づいて、前記辞書に存在しない未知語
を、入力された日本語文字列から抽出させ、該未知語に
前接または後接する語である連接語を、前記入力された
日本語文字列から少なくとも一つ抽出させ、該連接語の
構成、または該連接語に関し前記辞書に記憶されている
言語上の属性データに基づいて該未知語の品詞を判定さ
せ、前記判定された品詞を含めて前記未知語に関するデ
ータを前記辞書に追加登録させることを要旨とする。

【００１１】上記未知語登録装置または未知語登録方法
では、入力された日本語文字列を辞書を参照して文節に
分かち書きし、その結果に基づいて、前記辞書に存在し
ない未知語を入力された日本語文字列から抽出する。ま
た、該未知語に前接または後接する語（以下、連接語と
よぶ）を、前記入力された日本語文字列から少なくとも
一つ抽出する。こうして抽出された連接語の構成、また
は該連接語に関し前記辞書に記憶されている言語上の属
性データに基づいて該未知語の品詞を判定し、その品詞
を含めて未知語に関するデータを辞書に追加登録する。
従って、上記未知語登録装置または未知語登録方法によ
れば、辞書への未知語の自動登録が品詞も含めて可能と
なり、ひいては日本語入力装置における仮名漢字変換の
精度や識字率の向上を図ることができる。

【００１２】上記未知語登録装置、または未知語登録方
法は、仮名文字列のみならず、仮名、漢字、英字等が混
じった文章であっても適用できる。なお、本明細書にお
ける品詞は原則的にはいわゆる国文法における品詞（名
詞、形容詞等）と同じ意味であるが、文節分かち書きや
仮名漢字変換の精度および識字率を向上する目的に使用
される特殊性に鑑み、国文法における品詞よりも細分化
された品詞を用いる場合もある。かかる場合には、品詞
の定義を合わせて記載する。

【００１３】ここで、連接語の構成とは、連接語に含ま
れる文字に注目した構成を意味しており、例えば、連接
語がある特定の仮名文字により構成されていることに基
づいて品詞の推定をする場合等が含まれる。また、連接
語の言語上の属性データとは、連接語自体の品詞や、該
連接語がどのような品詞の単語と結合しやすいかという
性質等をいう。連接語の言語上の属性データは、辞書デ
ータに登録されているデータを用いるものとしてもよい
し、未知語登録装置において個別に用意するものとして
もよい。具体的な品詞判定手段としては、次の態様が考
えられる。

【００１４】第１の態様による前記品詞判定手段は、該
未知語の直後に後接する前記連接語が、「する」を含む
動詞またはその活用形である場合には、該未知語は該動
詞と結合可能な名詞であるサ変名詞と判定する手段であ
る。

【００１５】第２の態様による前記品詞判定手段は、該
未知語の直後に後接する前記連接語の構成が、仮名文字
「な」である場合には、該未知語は形容動詞であると判
定する手段である。

【００１６】第３の態様による前記品詞判定手段は、該
未知語の直後に後接する第１の連接語の構成が、仮名文
字「な」であり、該第１の連接語の直後に後接する第２
の連接語について前記辞書に登録されている品詞が体言
に含まれる品詞である場合には、該未知語は形容動詞で
あると判定する手段である。

【００１７】第４の態様による前記品詞判定手段は、前
記連接語の品詞が接頭語または接尾語である場合には、
該接頭語または接尾語に関して前記辞書に用意されたデ
ータのうち、該接頭語または接尾語が地名、人名その他
細分化されたいずれの名詞と結合しやすいかをあらわす
結合属性データに応じて、該未知語は前記細分化された
いずれかの名詞であると判定する手段である。

【００１８】前記第１の態様における、「する」を含む
動詞とはいわゆるサ行変格活用動詞（例えば、「す
る」、「決する」等）であり、その活用形とは、いわゆ
るサ行変格活用による活用形（「せ」、「し」、「す
れ」、「せよ」等）である。また、サ行変格活用動詞の
一つとして、「ずる」を含む動詞（例えば、「信ずる」
等）およびその活用形（「ぜ」、「じ」、「ずれ」、
「ぜよ」等）（かかる動詞を以下、「ザ行変格活用動
詞」とよぶ）を含むものとしてもよい。なお、第１の態
様における「サ変名詞」とは、名詞を細分化して定義し
た品詞の一つであり、サ行変格活用動詞と結合可能な名
詞、即ち、該名詞の後にサ行変格活用動詞が結合し得る
名詞をいう。また、ザ行変格活用動詞も含めて品詞判定
を行う場合には、該動詞と結合可能な名詞をザサ変名詞
と定義して登録するものとしてもよい。

【００１９】前記第２の態様においては、該未知語の直
後に後接する連接語の構成が、仮名文字「な」から構成
されている場合には、形容動詞であると判定する。形容
動詞については、国文法上、種々の定義がなされている
が、本明細書では、いわゆる連体形の活用語尾が「な」
であり、終止形の活用語尾が「だ」であるものは、全て
形容動詞であると定義する。従って、形容動詞の品詞判
定をより確実にするためには、第３の態様として示した
通り、未知語の直後に後接する第１の連接語「な」のみ
ならず、その直後に後接する第２の連接語が名詞、代名
詞または数詞等の体言に含まれる品詞であるという条件
も合わせて判定することが望ましい。

【００２０】なお、上記手段による品詞判定は、上記未
知語登録装置の未知語抽出手段が、形容動詞の語幹部分
を未知語として抽出してくる場合に有効となるものであ
る。一方、形容動詞の語尾「な」も含めて未知語として
抽出するような未知語抽出手段が用いられているような
場合には、未知語の語尾が仮名文字「な」である場合に
より形容動詞であると判定する手段としてもよい。

【００２１】第４の態様では、接頭語または接尾語（以
下、両者を合わせて接辞語とよぶ）の結合属性に基づい
て、未知語の品詞を判定する。国文法においては、接辞
語は単語の一部を構成する要素として扱われ品詞として
は扱われないが、本明細書においては、独立した品詞と
して扱うものとする。また、独立した名詞であっても接
辞語になり得る単語については、接辞語としても扱うも
のとする。接辞語にはそれぞれ地名、人名その他細分化
されたいずれの名詞と結合しやすいかをあらわす結合属
性データが合わせて辞書に登録されている。例えば、接
尾語「町」「市」等は、地名と結合しやすい結合属性デ
ータを有していることになる。従って、かかる接尾語が
連接する未知語は地名であると判定される。このように
第４の態様では、名詞を地名、人名等の更に細分化し、
この範囲で品詞を判定するのである。かかるグループと
しては、例えば、地名、人名、会社名、組織名、建物
名、商品名等を挙げることができる。

【００２２】本発明の第２の未知語登録装置は、品詞デ
ータを含む辞書を備え、日本語文字列を入力する日本語
入力装置において参照される前記辞書に存在しない未知
語を、該辞書に自動登録する未知語登録装置であって、
入力された日本語文字列を、前記辞書を参照して文節に
分かち書きする手段と、該分かち書き結果に基づいて、
前記辞書に存在しない未知語を、入力された日本語文字
列から抽出する未知語抽出手段と、固有名詞にのみ用い
られるものとして前記辞書に登録された固有名漢字が、
該未知語の中に含まれているか否かを判定する固有名漢
字判定手段と、前記未知語の中に前記固有名漢字が含ま
れている場合には、該未知語は固有名詞であると判定す
る品詞判定手段と、前記判定された品詞を含めて前記未
知語に関するデータを前記辞書に追加登録する追加登録
手段とを備えることを要旨とする。

【００２３】かかる未知語登録装置によれば、入力され
た日本語文字列を辞書を参照して文節に分かち書きし、
その結果に基づいて、前記辞書に存在しない未知語を入
力された日本語文字列から抽出する。こうして抽出され
た未知語について、固有名漢字が用いられているか否か
を判定し、固有名漢字が含まれている場合には、該未知
語は固有名詞であると判定し、その品詞を含めて未知語
に関するデータを辞書に追加登録する。固有名詞を人
名、地名、社名、商品名等、さらに細分化し、これらの
グループで品詞を判定するものとしてもよい。かかる上
記未知語登録装置または未知語登録方法によれば、辞書
への未知語の自動登録が品詞も含めて可能となり、ひい
ては日本語入力装置における仮名漢字変換の精度や識字
率の向上を図ることができる。固有名漢字であるか否か
は辞書に登録されたデータに基づいて判断されるが、未
知語登録装置において個別に判断基準を有するものとし
てもよい。

【００２４】以上に説明した本発明は、コンピュータを
用いて構成することが可能である。従って、本発明は、
以下に示す通り、コンピュータにより種々の機能を実現
するためのプログラムを記録した記録媒体としての態様
を採ることもできる。

【００２５】本発明の第１の記録媒体は、日本語文字列
を入力する際に参照される品詞データを含む辞書に存在
しない未知語を、該辞書に自動登録する機能をコンピュ
ータにより実現させるプログラムを記録したコンピュー
タ読みとり可能な記録媒体であって、入力された日本語
文字列を文節に分かち書きし、前記辞書に存在しない語
を、前記日本語文字列から抽出することによって得られ
た未知語を入力する機能と、該未知語に前接または後接
する語である連接語を前記日本語文字列から少なくとも
一つ抽出する機能と、該連接語の構成、または該連接語
に関し前記辞書に記憶されている言語上の属性データに
基づいて該未知語の品詞を判定する品詞判定機能と、前
記判定された品詞を含めて前記未知語に関するデータを
前記辞書に追加登録する機能とをコンピュータにより実
現させるプログラムを記録した記録媒体である。

【００２６】また、この記録媒体は、前記品詞判定機能
として、該未知語の直後に後接する前記連接語が、動詞
「する」またはその活用形である場合には、該未知語は
動詞「する」と結合可能な名詞であるサ変名詞と判定す
る機能をコンピュータにより実現させるプログラムを記
録した記録媒体としてもよい。

【００２７】同じく、この記録媒体は、前記品詞判定機
能として、該未知語の直後に後接する前記連接語の構成
が、仮名文字「な」である場合には、該未知語は形容動
詞であると判定する機能をコンピュータにより実現させ
るプログラムを記録した記録媒体としてもよい。

【００２８】同じく、この記録媒体は、前記品詞判定機
能として、前記連接語の品詞が接頭語または接尾語であ
る場合には、該接頭語または接尾語に関して前記辞書に
用意されたデータのうち、該接頭語または接尾語が地
名、人名その他細分化されたいずれの名詞と結合しやす
いかをあらわす結合属性データに応じて、該未知語は前
記細分化されたいずれかの名詞であると判定する機能を
コンピュータにより実現させるプログラムを記録した記
録媒体としてもよい。

【００２９】本発明の第２の記録媒体は、日本語文字列
を入力する際に参照される品詞データを含む辞書に存在
しない未知語を、該辞書に自動登録する機能をコンピュ
ータにより実現させるプログラムを記録したコンピュー
タ読みとり可能な記録媒体であって、入力された日本語
文字列を文節に分かち書きし、前記辞書に存在しない語
を、前記日本語文字列から抽出することによって得られ
た未知語を入力する機能と、人名にのみ用いられるもの
として前記辞書に登録された人名漢字が、該未知語の中
に含まれているか否かを判定する機能と、固有名詞にの
み用いられるものとして前記辞書に登録された固有名漢
字が、該未知語の中に含まれているか否かを判定する機
能と、前記判定された品詞を含めて前記未知語に関する
データを前記辞書に追加登録する機能とをコンピュータ
により実現させるプログラムを記録した記録媒体であ
る。

【００３０】上述の各記録媒体に記録されたプログラム
がコンピュータにより実行され、それぞれの機能が実現
されると、先に説明した未知語登録装置を構成すること
ができる。

【００３１】なお、記録媒体としては、フレキシブルデ
ィスクやＣＤ−ＲＯＭ、光磁気ディスク、ＩＣカード、
ＲＯＭカートリッジ、パンチカード、バーコードなどの
符号が印刷された印刷物、コンピュータの内部記憶装置
（ＲＡＭやＲＯＭなどのメモリ）および外部記憶装置等
の、コンピュータが読取り可能な種々の媒体を利用でき
る。また、コンピュータに上記の発明の各工程または各
手段の機能を実現させるコンピュータプログラムを通信
経路を介して供給する態様、つまりプログラムをネット
ワーク上のサーバなどに置き、通信経路を介して、必要
なプログラムをコンピュータにダウンロードし、これを
実行する態様を採るものとしてもよい。

【００３２】以上で説明した未知語登録装置であるか否
かを問わず、種々の未知語登録装置を利用した装置であ
る本発明の仮名漢字変換装置は、辞書を参照しつつ入力
された仮名文字列を仮名漢字混じり表記に仮名漢字変換
する仮名漢字変換装置であって、予め用意された辞書に
存在しない未知語に関するデータを、所定の管理データ
を含んだ未知語データとして、該辞書に追加登録する未
知語登録手段と、仮名漢字変換において前記未知語デー
タが参照された場合には、前記管理データに基づいて該
未知語を他の文字列と識別可能な方法で表示する未知語
表示手段とを備えることを要旨とする。

【００３３】かかる仮名漢字変換装置は、辞書に未知語
データを追加登録する際に、所定の管理データを含んだ
形で登録することができる。所定の管理データとは、登
録された単語が未知語であることを示すインデックスと
してもよいし、登録された日付等としてもよい。かかる
管理データを含めて登録された単語が仮名漢字変換にお
いて参照されると、上記仮名漢字変換装置は、該単語が
未知語であることを認識し、他の文字列と識別可能な方
法で表示する。かかる表示に基づき、該仮名漢字変換装
置の使用者は辞書に登録された未知語の内容を認識する
ことができ、使用者の意図しない形で辞書に登録された
単語を発見することができる。この結果、辞書の維持管
理を容易に行うことが可能となる。

【００３４】かかる仮名漢字変換装置では、先に説明し
た種々の態様による未知語登録装置を利用することが望
ましいが、所定の管理データを付して辞書に未知語を登
録できるものであれば、いずれの未知語登録装置を利用
するものとしてもよい。なお、仮名漢字変換とは、平仮
名の文字列を漢字仮名混じり表記に変換することのみな
らず、カタカナ文字列や英字、数字混じりの文字列等、
入力された平仮名文字列と同義の種々の表記に変換する
ことを含めるものとしてもよい。また、未知語を他の文
字列を識別可能に表示する方法には、例えば、未知語を
他の文字列と色を変えて表示したり、フォントや文字サ
イズ等を変えて表示したり、未知語部分にはアンダーラ
インやハッチングを付して表示するなど、種々の態様に
よる表示が可能である。

【００３５】

【発明の実施の形態】以下本発明の実施の形態について
実施例に基づいて説明する。図１は、本実施例の未知語
登録装置を含む日本語入力装置の制御ロジックを示すブ
ロック図、図２は、この日本語入力装置のハードウェア
を示すブロック図である。説明の便宜上、まずハードウ
ェアの概略構成を図２を用いて説明する。

【００３６】（１）実施例の概略構成図２に示すように、日本語入力装置の内部では、ＣＰＵ
２０、ＲＯＭ２２、ＲＡＭ２４、ハードディスク２６、
ＣＤ−ＲＯＭドライブ２７がバス３８により相互に接続
されている。また、このバス３８には、入出力ポート２
８も接続されている。入出力ポート２８には、入出力装
置として、キーボード３０、ＣＲＴディスプレイ３２、
プリンタ３４、スキャナ３６がそれぞれ接続されてい
る。なお、ＣＤ−ＲＯＭドライブ２７はプログラムが格
納された記録媒体に応じた記録媒体読みとり装置とする
ことができる。例えば、記録媒体として、いわゆるフロ
ッピーディスクを用いる場合には、ＣＤ−ＲＯＭドライ
ブ２７に代えて、またはＣＤ−ＲＯＭドライブ２７とと
もにフロッピーディスクドライブをバス３８に接続する
ものとしてもよい。

【００３７】上記ＣＰＵ２０は周知のものであり、ＲＯ
Ｍ２２は基本ソフトウェア等を記憶するマスクメモリ、
ＲＡＭ２４は主記憶を構成する読み出しおよび書き込み
が可能なメモリである。また、ハードディスク２６には
ＲＡＭ２４にロードされて実行される仮名漢字変換プロ
グラムその他の各種プログラムや、そのプログラムが参
照する各種変換辞書などが記憶されている。なお、仮名
漢字変換プログラムは、ＲＯＭ２２に記憶しておくもの
としてもよいし、ＣＤ−ＲＯＭに記憶しておきＣＤ−Ｒ
ＯＭドライブ２７を介してＲＡＭ２４に読み込むものと
してもよい。

【００３８】こうして構成されたハードウエアにより、
文章の入力，仮名漢字変換，編集，表示，印刷などの機
能が実現される。文章の入力は、キーボード３０から文
字列の形でなされる場合もあれば、スキャナ３６からイ
メージ情報として入力される場合もある。こうして入力
された文章は、ＣＰＵ２０により後述する種々の処理が
なされ、ＲＡＭ２４の所定領域に格納され、ＣＲＴ２６
の画面上に表示されたり、プリンタ３４から出力された
りする。

【００３９】次に、本実施例の日本語入力装置を機能ブ
ロックで捕らえた場合の各部分の働きを図１を用いて説
明する。図１に示した各機能ブロックのほとんどは、Ｃ
ＰＵ２０がソフトウェアに基づいて実行するものであ
る。

【００４０】入力部４０には図２のキーボード３０およ
びスキャナ３６が相当し、日本語の文章を入力する部分
である。入力部４０から入力された文章は、入出力制御
部４６の制御の下、文字受取部４８に送出される。ここ
で、入出力制御部４６は、例えばキーボード３０の操作
がなされたとき、ＣＰＵ２０に所定の割り込み処理をか
け、文字列の入力処理を実行する等の制御を行う。ま
た、スキャナ３６から文章が入力される場合には、スキ
ャナ３６のドライバを起動する。

【００４１】こうして入力された文章は、形態素解析部
５０により、形態素解析がなされる。形態素解析とは、
例えば「くるまではこをはこぶ」と入力された仮名文字
列を、辞書に登録された各単語の品詞情報等を参照する
ことで、「くるまで／はこを／はこぶ」と解析する処理
をいう。この際、形態素解析部５０は、メモリ（ＲＯＭ
２２、ＲＡＭ２４、ハードディスク２６）に記録された
自立語辞書６２や付属語辞書６４を参照する。また、解
析の途中経過として得られる文節候補や単語候補をそれ
ぞれ文節候補格納部５４、単語候補格納部５８に送出
し、ＲＡＭ２４に格納する。また、仮名文字列が入力さ
れている場合には、形態素解析部５０は形態素解析結果
に基づいて、仮名漢字変換を実行する。

【００４２】なお、仮名漢字変換における形態素解析の
途中経過として得られ、文節候補格納部５４、単語候補
格納部５８に記憶されたそれぞれの候補は、入出力制御
部４６を介して表示部４４に表示される。これらの文字
列が非所望の文字列である可能性もあるため、形態素解
析部５０は使用者による指示を受けて、次候補の表示や
選択などの処理を行う。図示していないが、これらの指
示や選択の結果などは、学習結果として格納されてい
る。

【００４３】一方、形態素解析部５０が文章の形態素解
析を終了した後は、その結果を形態素出力部５２に送出
する。形態素出力部５２は、さらに入出力制御部４６を
介して出力部４２または表示部４４に結果を出力する。
出力部４２には図２のプリンタ３４が相当し、表示部４
４には図２のＣＲＴディスプレイ３２が相当する。

【００４４】形態素解析の結果は、形態素出力部５２か
ら未知語抽出部５６へも引き渡される。未知語抽出部５
６は、形態素解析結果に基づいて、自立語辞書６２およ
び自立語辞書６２に存在しない未知語を抽出する。こう
して抽出された未知語は、未知語登録部６０に引き渡さ
れる。未知語登録部６０は、各未知語について品詞の判
定等、後述する所定の処理を行った上、自立語辞書６２
または付属語辞書６４に未知語を登録する。また、自立
語辞書６２および付属語辞書６４は、未知語削除部６６
によっても書き換え可能となっており、登録された未知
語を必要に応じて削除することが可能となっている。

【００４５】（２）未知語自動登録処理次に、本実施例の未知語登録装置による未知語自動登録
処理について図３に基づいて説明する。図３は、未知語
自動登録ルーチンの流れを示すフローチャートである。
このルーチンは、図２に示したＣＰＵ２０により、日本
語入力が実行されている最中に自動的に行われる処理で
ある。日本語入力が終了した後に、所定のコマンドを入
力することにより実行するものとしてもよい。

【００４６】未知語自動登録ルーチンが開始されると、
ＣＰＵ２０は、文章入力を行う（ステップＳ１００）。
文章は、入力部４０（図１）に相当するキーボード３０
またはスキャナ３６（図２）から入力される。文章は、
キーボード３０から文字列の形で入力されることもあれ
ば、スキャナ３６からイメージ情報の形で入力される場
合もある。入力される文章は、仮名文字のみならず、漢
字やカタカナ、英字、数字等が含まれているものであっ
てもよい。

【００４７】次に、ＣＰＵ２０は、形態素解析を実行す
る（ステップＳ１０５）。形態素解析に関しては、例え
ば２文節を基本単位とし成り立ち得る文節の中で最長の
文節が得られる２文節を第１候補とする２文節最長一致
法等、種々の方法が知られているが、本実施例では最小
コスト法を用いている。最小コスト法とは、文節を構成
する単語の候補となり得る単語および単語同士の組合わ
せにコストを付け、この点数が所定の条件を満たす文節
を第１候補とする方法である。形態素解析の手法は、最
小コスト法に限られるものではなく、既知のいずれの手
法を用いても良い。

【００４８】本実施例における形態素解析ルーチンにつ
いて説明する。図４にこのルーチンの流れを示す。先に
述べた通り、最小コスト法と呼ばれる手法により形態素
解析を行うルーチンである。この処理は、図１の機能ブ
ロックに基づけば、形態素解析部５０が行うものであ
る。形態素解析部５０は図２のＣＰＵ２０の一処理機能
を機能ブロックとして説明したものであるため、ＣＰＵ
２０が形態素解析ルーチンを実行するといっても同じ意
味である。

【００４９】図４に示す通り、ＣＰＵ２０は、まず一時
的に保存されたデータの消去や解析位置を１桁目に初期
化するなどの初期化（ステップＳ２００）を行った後、
解析位置を求める処理を行う（ステップＳ２０５）。解
析位置とは、入力された文章について次に解析を行う位
置である。例えば、「くるまではこをはこぶ」という仮
名文字列が入力されているとすれば、最初の解析位置は
１桁目の「く」の位置であり、順次解析が進むにつれ
て、解析位置は「る」「ま」・・・と進む。この解析位
置で、ＣＰＵ２０はハードディスク２６に記憶された自
立語辞書６２および付属語辞書６４を検索する処理を行
う（ステップＳ２１０）。先の例でいえば、「く」とい
う語を辞書から検索する。

【００５０】辞書の検索を行った後、得られた単語につ
いてそれ以前の単語との結合をチェックする処理を行い
（ステップＳ２１５）、単語間の結合がありえない場合
には、該単語は無効として、更に辞書を検索する。例え
ば、先の例文（「くるまではこをはこぶ」）中の「こを
はこぶ」の「は」について付属語辞書６４から検索され
た係助詞の「は」は、その直前の格助詞「を」との結合
がありえないと判断されるから無効なデータとして扱わ
れる。なお、図１のブロック図では示していないが、単
語間の結合は品詞に応じて結合の可能性を示すテーブル
としてメモリ（ＲＡＭ２４、ＲＯＭ２２、ハードディス
ク２６）内に記憶されている。従って、辞書に各単語の
品詞が適切に登録されていない場合には、上記結合のチ
ェックを適切に行うことができない。一つの解析位置で
の辞書検索と結合チェックが終われば、解析位置を順に
進めて更に処理を繰り返す。

【００５１】結合の可能性のある単語については、ＣＰ
Ｕ２０はコスト計算を行い、その語の最小総コストを求
める処理を行い、（ステップＳ２２０）、不適切なコス
トのものを無効とする処理を行う（ステップＳ２２
５）。これは、ある語の組み合わせについて自立語＝
２、付属語＝０のコストを持つものと定義して解析位置
までの総コストを計算し、他の語の組合わせと比べて大
きい不適切なコストの組み合わせは無効とする処理であ
る。先に示した例に基づいて説明すると、例文（「くる
まではこをはこぶ」）中の「くるま」は、「く」＋
「る」＋「ま」、「くる」＋「ま」、「くるま」等種々
の語の組み合わせに分けることができる。これらの各組
み合わせについて単語を当てはめてコストを計算する。
「く」＋「る」に対し、「苦」（自立語）＋「流」（自
立語）という単語を当てはめれば、「流」はコスト４と
なる。一方、「くる」に対し「来る」（自立語）という
単語を当てはめれば、コスト２となる。最小コスト法
は、こうして求められたコストが最小となる組み合わせ
を採用するものであるため、この場合には、「来る」を
採用することになる。かかる解析を続けていけば、「く
るま」については、「車」（自立語）がコスト２で最小
コストとなる。

【００５２】また、「くるまで」について考えれば、
「車」（自立語）＋「で」（付属語）であるため、
「で」のコストは「車で」の総コストに相当するコスト
２となる。同様に「来る」（自立語）＋「まで」（付属
語）なる結果を考えれば、「まで」もコスト２となる。
こうして得られた文節候補およびそのコストは、文節候
補格納部５４（図１）に記憶される。上述のコスト計算
は、辞書に登録された単語の品詞に基づいて自立語か付
属語かを判断して行われるものであるため、品詞が適切
に登録されていない場合には、正確なコスト計算を実行
することができないことになる。

【００５３】次に、こうしてコストが与えられた単語候
補をリンクする処理を行う（ステップＳ２３０）。即
ち、結合が有効とされた語について、ポインタを設定す
ることで、その結合を関係づける。上述の例文中「くる
まで」について説明すれば、「車／で」および「来る／
まで」に対し最小総コストの計算がなされたから、「来
る」については「まで」にリンクし、「車」については
「で」にリンクするというように関係づけるのである。
こうした結合チェックやコスト計算、そしてリンクづけ
の処理を、一つの解析位置で総ての単語の検索が完了す
るまで繰り返す。また、その解析位置での辞書の検索が
完了すると、更に解析位置を一つ進めて、新たな単語の
成立を検討し、同様に結合チェックやコスト計算などを
繰り返す。

【００５４】解析位置が、既に入力された最後の仮名文
字の位置に至り、全語について解析が完了した場合には
（ステップＳ２３５）、以上の処理を前提として、最小
コストのパスを検索する処理を行う（ステップＳ２４
０）。これは、有効とされた語の組合わせのなかで、語
に付与されたコストの総和が最小になるものを検索する
処理である。「くるまではこをはこぶ」の例では、「車
（２）／で（２）／箱（４）／を（４）／運ぶ（６）」
という分かち書きが総コスト１８で最小コストとなる。
なお、かっこ書きの数字は各単語のコストを意味する。

【００５５】このとき、最小コストではないが、他の文
節分かち書きの候補も検索される。例えば、「車（２）
／で（２）／は（２）／子（４）／を（４）／運ぶ
（６）」という分かち書き（コスト＝２０）である。こ
うして分かち書きの候補を作成した後（ステップＳ２４
５）、今度は各文節の内部での候補を作成する処理を行
う（ステップＳ２５０）。即ち、ひとつの文節分かち書
きの内部で、例えば「はこを」に対して「箱を」や「函
を」といった候補を用意するのである。これらの文節の
候補や単語の候補は、使用者により文節の分け方をかえ
るよう指示されたり、次候補を表示するよう指示された
場合に使用される。

【００５６】以上では、仮名文字列が入力された場合を
例にとって、形態素解析ルーチンを説明したが、カタカ
ナ、漢字、英字、数字等が混じった文章についての形態
素解析も同様の処理である。上記説明から明らかな通
り、形態素解析においては、辞書検索（ステップＳ２１
０）が重要な役割を有する。

【００５７】形態素解析（図３のステップＳ１０５）が
終了すると、ＣＰＵ２０は次のステップに進み、未知語
抽出処理を実行する（ステップＳ１１０）。これは、形
態素解析ルーチンの辞書検索（図４のステップＳ２１
０）において辞書に存在しなかった単語を抽出する処理
である。なお、入力された文字列には、形態素解析ルー
チンによれずに、所定の操作をすることにより、平仮名
表記またはカタカナ表記等のまま入力が確定されること
もあり、かかる単語についても辞書に存在しないものは
未知語として抽出されることになる。未知語抽出処理ル
ーチンの流れを図５に示す。

【００５８】このルーチンでは、ＣＰＵ２０は形態素解
析された結果に基づいて、入力された文章の先頭から順
に単語のピックアップをする（ステップＳ３００）。後
述する通り、本実施例の未知語登録装置は、辞書に存在
する単語が結合して新たな一つの単語を形成している場
合にも未知語として辞書に追加登録する機能を有してい
る。従って、ここで、ピックアップする単語は、純粋に
一単語である場合の他、二以上の単語がひとつにまとま
って新たな語を形成している場合も含まれる。つまり、
ＣＰＵ２０は、文章中に含まれる単語を一つずつピック
アップする処理の他、前後の単語と組み合わせてピック
アップする処理も実行するのである。次に、ピックアッ
プした単語が辞書に存在しない単語であるかの判定をす
る（ステップＳ３０５）。該単語が辞書に既に存在する
場合には、未知語に該当しないため、未知語フラグＦに
値０を代入する（ステップＳ３１５）。

【００５９】ピックアップした単語が辞書に存在しない
単語である場合には、次に未知語形態に該当するか否か
の判定を行う（ステップＳ３１０）。未知語形態とは、
未知語として登録すべき単語の構成を予め設定したもの
をいう。本実施例の未知語登録装置は、辞書に存在する
単語が結合して新たな一つの単語を形成している場合に
も未知語として辞書に追加登録するため、予めこのよう
な形態を設定しない場合には、ひとつの未知語に連接す
る全ての単語との組み合わせを未知語として追加登録す
る可能性があり、辞書を記憶するメモリ容量がすぐに不
足してしまうことになりかねない。未知語形態を以下の
形態に限定することに代えて、例えば上記単語の結合に
ついては２種類までに制限したり、例えば未知語の文字
数を１０文字以内に制限したりする等、数量的な制限を
設けるものとしてもよい。

【００６０】具体的に、本実施例で設定されている未知
語形態は、次の１２形態である。なお、各形態中の例示
における「／」は、２つ以上の単語が結合していること
を意味するものであり、実際の未知語の一部であること
を意味するものではない。形態１：平仮名のみで構成される不定語からなるもの
（例：ふじ）。形態２：英字のみで構成される不定語からなるもの
（例：ＥＸ）。形態３：英字のみで構成される複数の単語からなり、
一部が辞書に存在するもの（例：ＴＯＰ／ＳＡＬＥ
Ｓ）。形態４：英字、記号、数字、カタカナの組み合わせで
構成される不定語からなるもの（例：ＩＰアドレス）。形態５：カタカナのみで構成される不定語からなるも
の（例：アインシュタイン）。形態６：カタカナのみで構成される複数の単語からな
り、一部が辞書に存在するもの（例：アイ／マスク）。形態７：カタカナのみで構成される単語が「・」で結
合されるもの（例：トラブル・メーカー）。形態８：接頭語、接尾語のつくもの（例：再試験、対
ソ）。形態９：漢字１文字の名詞＋漢字１文字の名詞で構成
されるもの（例：愛猫）。形態１０：漢字１文字の名詞＋漢字２文字の名詞で構成
されるもの（例：亜空間）。形態１１：漢字２文字の名詞＋漢字１文字の名詞で構成
されるもの（例：具体例）。形態１２：不定語となる漢字を含むもの（例：濱口）。

【００６１】未知語形態は、上記で設定された形態以外
の形態を追加するものとしてもよいし、上記形態の一部
を削除してもよい。また、上記形態の一部を更に細分化
した形態としてもよい。例えば、形態４を次の通り細分
化してもよい。形態４−１：英字、記号、数字のみから構成されるもの
（例：ＡＰ−１５０Ｐ）。形態４−２：英字、記号＋カタカナから構成されるもの
（例：ＩＰアドレス）。形態４−３：カタカナ＋英字、記号から構成されるもの
（例：テレフォンＮＯ）。

【００６２】また、形態８を次の通り細分化してもよ
い。形態８−１：漢字のみから構成され接頭語、接尾語のつ
くもの（例：再試験）。形態８−２：カタカナ＋接尾語から構成されるもの
（例：ロ社、フ諸島）。形態８−３：接頭語＋カタカナから構成されるもの
（例：対ソ）。

【００６３】なお、上述の未知語形態において、不定語
とは、その単語のみで本来、固有の意味を有しない単語
をいう。例えば、ＥＸ（例を意味する）のような略語、
アインシュタインのような人名、濱口の「濱」のような
いわゆる固有名漢字等が該当する。また、ここでいう接
頭語、接尾語とは、国文法における接頭語、接尾語より
も広い概念である。つまり、名詞として成立するような
語、例えば「社」や「諸島」等も接頭語、接尾語の範疇
に含まれる。これらの語は、名詞および接頭語、接尾語
という複数の品詞をもつものとして辞書に登録されてい
るのである。

【００６４】上記ピックアップした単語が上記未知語形
態に該当する場合には、ＣＰＵ２０は、未知語フラグＦ
に値１を代入する（ステップＳ３２０）。こうして全単
語について未知語を抽出する処理（ステップＳ３００〜
Ｓ３２０）が終了した場合には（ステップＳ３２５）、
未知語抽出処理ルーチンを一旦終了する。未知語抽出処
理を終えた後（図３のステップＳ１１０）、ＣＰＵ２０
は未知語品詞推定処理を実行する（図３のステップＳ１
１５）。未知語品詞推定処理ルーチンについて図６を用
いて説明する。

【００６５】このルーチンでは、各単語について最初に
未知語フラグＦが値１であるか否かを判定する（ステッ
プＳ４００）。フラグＦが値０である場合には、その単
語は未知語でないことを意味しているため、品詞の推定
は行わない。フラグＦが値１である場合には、以下の手
順により品詞判定を行う。

【００６６】まず、その未知語に固有名漢字が含まれて
いるか否かを判定する（ステップＳ４０５）。固有名漢
字とは、「濱口」の「濱」のようにその漢字のみで固有
の単語として用いられることはなく、人名、地名等の固
有名詞の一部としてのみ使用される漢字をいう。各漢字
が固有名漢字に該当するか否かは、辞書に登録されてい
るデータに基づいて判断される。未知語に固有名漢字が
使用されている場合には、該未知語の品詞は固有名詞で
あると判断される（ステップＳ４１０）。先に説明した
形態１２がここに該当し得る。なお、固有名漢字をさら
に、人名のみに用いられる人名漢字、地名のみに用いら
れる地名漢字等に分類し、固有名詞を細分化した人名、
地名等のグループで品詞を判定するものとしてもよい。

【００６７】未知語に固有名漢字が含まれていない場合
は、ＣＰＵ２０は、該未知語に後接する単語（以下、後
接語とよぶ）を抽出し（ステップＳ４１５）、該後接語
が仮名文字「な」であるか否かを判定する（ステップＳ
４２０）。後接語が仮名文字「な」である場合には、Ｃ
ＰＵ２０は、その後接語の直後の後接語をさらに抽出し
（ステップＳ４２５）、該後接語が体言であるか否かを
判定する（ステップＳ４３０）。体言とは、名詞、代名
詞、数詞等をいう。ここでいう名詞には、人名等、名詞
を細分化して定義した種々の品詞も含んでいる。つま
り、これらのステップにより、未知語の後に「仮名文字
「な」＋体言」なる語が連接しているか否かを判定して
いるのである。かかる語が連接している場合には、該未
知語の品詞は形容動詞であると判定する（ステップＳ４
３５）。なお、国文法における形容動詞には種々の定義
が存在するが、本実施例においては、いわゆる連体形の
活用語尾が「な」であるものは全て形容動詞であると定
義している。上述の形態３ないし形態８がここに相当し
得る。

【００６８】なお、本実施例では形容動詞の活用語尾で
ある「な」を一種の付属語として捕らえており、形容動
詞の語幹に相当する部分が未知語として抽出されるた
め、上記ステップ（Ｓ４２０、Ｓ４３０）により形容動
詞であるか否かの判定を行うことができる。これに対
し、形態素解析の結果、形容動詞の語尾「な」も含めて
未知語として抽出するような未知語抽出手段が用いられ
ているような場合には、ステップＳ４２０を未知語の語
尾が仮名文字「な」であるか否かにより形容動詞である
と判定する手段としてもよい。また、本実施例では、仮
名文字「な」の後に体言が後接するか否かも含めて品詞
判定を行っている（ステップＳ４３０）が、このステッ
プを省略し、仮名文字「な」が後接するか否か（ステッ
プＳ４２０）のみによって品詞判定を行うものとしても
よい。

【００６９】未知語に仮名文字「な」が連接していない
場合、または仮名文字「な」の後に体言が連接していな
い場合は、ステップＳ４１５で抽出した後接語が「す
る」を含む動詞であるか否かを判定し（ステップＳ４４
０）、かかる動詞に該当する場合には、未知語の品詞を
サ変名詞と判定する（ステップＳ４４５）。上述の形態
１ないし形態８がここに相当し得る。サ変名詞とは、名
詞の一種として定義された品詞であり、例えば「増加
（する）」等、サ行変格動詞と結合し得る名詞を意味す
る。なお、上述の「する」を含む動詞とはいわゆるサ行
変格活用動詞（例えば、「する」、「決する」等）一般
を意味し、後接語がかかる動詞に該当するか否かは、そ
の活用形（「せ」、「し」、「すれ」、「せよ」等）も
含めて判断される。

【００７０】後接語が「する」を含む動詞でない場合に
は、次のステップにおいて、後接語が「ずる」を含む動
詞であるか否かを判定し（ステップＳ４５０）、かかる
動詞に該当する場合には、未知語の品詞をザサ変名詞と
判定する（ステップＳ４５５）。上述の形態１ないし形
態８がここに相当し得る。ザサ変名詞とは、名詞の一種
として定義された品詞であり、例えば「格別（重んず
る）」等、サ行変格活用動詞のうち語尾が濁る動詞（以
下、ザ行変格活用動詞とよぶ）およびサ行変格活用動詞
と結合し得る名詞を意味する。なお、上述の「ずる」を
含む動詞とはザ行変格活用動詞（例えば、「信ずる」、
「重んずる」等）一般を意味し、後接語がかかる動詞に
該当するか否かは、その活用形（「ぜ」、「じ」、「ず
れ」、「ぜよ」等）も含めて判断される。

【００７１】後接語が「ずる」を含む動詞でない場合に
は、次のステップにおいて、後接語が接尾語に該当する
か否かを判定する（ステップＳ４６０）。接尾語に該当
しない場合には、未知語の直前に連接する語（以下、前
接語とよぶ）を抽出し（ステップＳ４６５）、該前接語
が接頭語に該当するか否かを判定する（ステップＳ４７
０）。後接語が接尾語である場合または前接語が接頭語
である場合には、接頭語または接尾語（以下、両者を合
わせて接辞語とよぶ）の結合属性に基づいて、未知語の
品詞を判定する（ステップＳ４７５）。上述の全ての形
態がここに相当し得る。接辞語にはそれぞれ地名、人名
その他細分化されたいずれの名詞と結合しやすいかをあ
らわす結合属性データが合わせて辞書に登録されてい
る。例えば、接尾語「町」「市」等は、地名と結合し得
る結合属性データを有しており、かかる接尾語が連接す
る未知語は地名であると判定される。このように、名詞
を地名、人名等の更に細分化し、この範囲で品詞を判定
するのである。

【００７２】本実施例においては、接辞語の結合属性と
未知語の品詞との関係として、次の６態様が設定されて
いる。態様１：接辞語が地名と結合し得る属性である場合
（例：町、市、大字、丁目等）、未知語の品詞は「地
名」とする。態様２：接辞語が人名と結合し得る属性である場合
（例：氏、課長、ミスター等）、未知語の品詞は「人
名」とする。態様３：接辞語が社名と結合し得る属性である場合
（例：社、会社、洋行、銀行、製作所、カンパニー、鉄
道等）、未知語の品詞は「社名」とする。態様４：接辞語が組織名と結合し得る属性である場合
（例：課、事業部等）、未知語の品詞は「組織名」とす
る。態様５：接辞語が建物名と結合し得る属性である場合
（例：ビル、寺、マンション、駅等）、未知語の品詞は
「建物名」とする。態様６：接辞語が商品名と結合し得る属性である場合
（例：ジュース、饅頭等）、未知語の品詞は「商品名」
とする。

【００７３】接辞語の結合属性と未知語の品詞との関係
は、これらに限定されるものではなく、更にいくつかの
関係を設定してもよい。また、上記関係のうち、いくつ
かを削除してもよい。なお、本実施例における接辞語に
は、本来は名詞であるものも含まれている。これらの語
は、名詞と接辞語の２つの品詞を有していることにな
る。

【００７４】後接語が接尾語である場合および前接語が
接頭語である場合のいずれにも該当しない場合には、未
知語の品詞は名詞であると判定する（ステップＳ４８
０）。以上の手順により、未知語について順に品詞を判
定し、全ての未知語について判定が終了した場合には
（ステップＳ４８５）、ＣＰＵ２０は、未知語品詞推定
処理ルーチンを一旦終了する。

【００７５】未知語品詞推定処理（図３のステップＳ１
１５）が終了すると、次のステップにおいて、ＣＰＵ２
０は、見出し作成処理（図３のステップＳ１２０）を実
行する。見出し作成処理とは、未知語に対し、辞書に登
録する読みを作成する処理である。見出し作成処理ルー
チンの流れを図７に示す。

【００７６】見出し作成処理ルーチンが開始されると、
ＣＰＵ２０は、各単語について未知語フラグＦが値１で
あるか否かを判定する（ステップＳ５００）。フラグＦ
が値１でない場合には、未知語ではないため、次の語の
処理に移る。

【００７７】フラグＦが値１である場合には、次に該未
知語が漢字からなる語か否かを判定する（ステップＳ５
０５）。漢字からなる語とは、未知語が漢字のみからな
る場合および漢字を一部に含む場合の双方を含んでい
る。

【００７８】未知語が漢字からなる語でない場合には、
該未知語を構成する文字を１文字ずつ仮名表記にするこ
とにより、未知語の仮名表記を生成する（ステップＳ５
１０）。具体的には、カタカナは平仮名に変換し、英
字、数字はその読みを平仮名で表す。従って、例えば、
「アインシュタイン」なる未知語の仮名表記は「あいん
しゅたいん」となり、「ＥＸ」なる未知語の仮名表記は
「いーえっくす」となる。なお、未知語の一部が辞書に
存在する場合には、その読みを利用して仮名表記を生成
するものとしてもよい。例えば、「ＴＯＰＳＡＬＥ
Ｓ」なる未知語については、「とっぷせーるす」なる表
記を生成するものとしてもよい。また、複数の読みが可
能な場合には、全ての読みを生成するものとしてもよ
い。例えば、「ＴＯＰＳＡＬＥＳ」なる未知語につい
ては、先に挙げた読みの他、１文字ずつアルファベット
読みをあてた表記「てぃーおーぴー・・・」なる読みを
生成するものとしてもよい。

【００７９】未知語が漢字からなる語である場合には、
該漢字の読みの組み合わせに基づいて未知語の読みを生
成する（ステップＳ５１５）。図７のステップＳ５１５
では、漢字２文字からなる未知語について可能な読みを
示した。つまり、このステップでは「音読み−音読
み」、「訓読み−訓読み」、「音読み−訓読み」、「訓
読み−音読み」の４つの読みを生成することになる。漢
字３文字からなる未知語の場合には、更に組み合わせが
増えることになる。

【００８０】この場合においても、未知語の一部が辞書
に存在する場合には、その読みを利用するものとしても
よい。例えば、「誕生日」が未知語として抽出され、
「誕生（たんじょう）」が辞書に存在する場合には、
「日」の部分のみを種々の読みに変更し、「たんじょう
び」、「たんじょうひ」、「たんじょうにち」という読
みを生成するものとしてもよい。また、漢字のみからな
る単語については、「音読み−訓読み」、「訓読み−音
読み」からなる読みを生じることは稀であるため、「音
読み−音読み」、「訓読み−訓読み」からなる読みだけ
を生成するものとしてもよい。これらの手段を採れば、
漢字の文字数が多い未知語について、現実にありえない
不適切な読みを多数生成するおそれが低くなり、辞書に
当てられるメモリを有効に活用することができる。

【００８１】以上の手順により、未知語の読みを生成
し、全ての未知語について読みの生成が終了した場合
（ステップＳ５２０）には、見出し作成処理ルーチンを
一旦終了する。見出し作成処理ルーチンが終了した後
（図３のステップＳ１２０）、ＣＰＵ２０は、それぞれ
の未知語を、仮名漢字変換辞書および形態素解析辞書に
登録する（ステップＳ１２５、Ｓ１３０）。これらの登
録順序は、いずれが先であっても構わないし、同時に行
うものとしてもよい。両者への登録を同時に行う場合と
しては、両者のデータが一部重複している場合が挙げら
れる。つまり、辞書に登録される実質的なデータ（未知
語、読み等）は両辞書で共通のものとしておいて、そこ
に添付されるインデックスデータの使い分けにより、仮
名漢字変換辞書として使用したり、形態素解析辞書とし
て使用したりする場合である。

【００８２】ここで、仮名漢字変換辞書とは、仮名漢字
変換において使用される辞書をいい、入力された仮名文
字列をインデックスとして仮名漢字混じり（英字、数
字、記号混じりも含まれる）の表記データを対応させる
ための辞書をいう。従って、先に説明した見出し作成処
理（ステップＳ１２０）において未知語の読みが複数作
成されている場合には、仮名漢字変換辞書には、それら
全ての読みをインデックスとして未知語が対応できるよ
うに未知語が登録される。

【００８３】一方、形態素解析辞書とは、先に説明した
形態素解析（ステップＳ１０５）において参照される辞
書である。従って、形態素解析辞書には、入力された文
字列が仮名漢字混じりである場合にも該文字列をインデ
ックスとして単語の品詞等が参照できるような形式で、
未知語が登録される。なお、図１に示した自立語辞書６
２および付属語辞書６４は、これらとは異なる観点で辞
書を区分したものであり、仮名漢字変換辞書および形態
素解析辞書のそれぞれに、自立語辞書６２および付属語
辞書６４が存在している。

【００８４】上記各辞書に登録される具体的なデータと
しては、仮名漢字混じりで表記された未知語データ、該
未知語の品詞データ、該未知語の読みデータが主なデー
タである。この他、未知語の登録日や使用頻度等の管理
情報を一緒に登録するものとしてもよい。

【００８５】以上で説明した未知語登録装置によれば、
第１に辞書への未知語の自動登録が可能となるため、使
用者が自ら辞書に単語を追加登録しなくても、辞書デー
タを豊富にすることができる。第２に未知語の品詞を適
切に登録することが可能となる。つまり、使用者が未知
語の品詞を入力する場合には、名詞等の特定の品詞に集
中しがちであるが、上記未知語登録装置では未知語の品
詞を推定できるため、適切な品詞を登録することができ
る。第３に未知語について可能な読みを複数推定し、全
ての読みを登録することができる。この結果、未知語が
不適切な読みで辞書に登録され、後の仮名漢字変換等で
参照できないような事態が生じるおそれがなくなる。以
上の種々の効果により、本実施例の未知語登録装置によ
れば、形態素解析ひいては仮名漢字変換の精度やＯＣＲ
装置における識字率を向上することができる。

【００８６】なお、上述の未知語登録装置における未知
語の形態として、上記１２の形態に加え、次の形態を含
むものとしてもよい。形態１３：２文節からなる語が辞
書の１文節に相当するもの（例：飛びこむ）。例えば
「飛びこむ」は「飛ぶ」＋「こむ」なる結合であるよう
に、上記形態は、それぞれ辞書に登録された単語の結合
である。従って、かかる形態からなる未知語の品詞は、
結合された各語の品詞を有するものとすればよい。つま
り、「飛びこむ」であれば、結合された「飛ぶ」＋「こ
む」の双方ともに動詞であるため、未知語の品詞は動詞
となる。上記形態では例えば、通常得られる「飛び込
む」なる表記の他に、「飛びこむ」なる表記も考えられ
ることから、両者を一つの未知語として辞書に登録すれ
ば、所望の表記を得ることができるようになる。

【００８７】もっとも、上記形態１３について、「飛び
こむ」なる表記は「飛び込む」なる表記の派生表記とし
て捕らえることができるため、未知語としての登録では
なく、別途「飛び込む」と関連付けた派生表記としての
登録方法を用いるものとしてもよい。

【００８８】（３）未知語登録装置としての記録媒体先に説明した未知語登録装置は、図３から図７に示した
種々の処理を図２に示したコンピュータ（特にＣＰＵ２
０）が実行することにより実現したものであるため、こ
れらの機能を実現するプログラムを記録した記録媒体に
よっても、未知語登録装置を実現することができる。こ
のような記録媒体としては、図３に示した未知語自動登
録ルーチン全てを記録した記録媒体であってもよいし、
未知語品詞推定処理ルーチン（図６）のみを記録した記
録媒体であってもよい。また、上記プログラムのうち、
入出力に関する機能等の基本的な機能は、コンピュータ
に別途備えられている基本ソフトウェア（いわゆるＢＩ
ＯＳ等）を用いるものとしてもよい。

【００８９】なお、記録媒体としては、フレキシブルデ
ィスクやＣＤ−ＲＯＭ、光磁気ディスク、ＩＣカード、
ＲＯＭカートリッジ、パンチカード、バーコードなどの
符号が印刷された印刷物、コンピュータの内部記憶装置
（ＲＡＭやＲＯＭなどのメモリ）および外部記憶装置等
の、コンピュータが読取り可能な種々の媒体を利用でき
る。また、コンピュータに上記の発明の各工程または各
手段の機能を実現させるコンピュータプログラムを通信
経路を介して供給する態様、つまりプログラムをネット
ワーク上のサーバなどに置き、通信経路を介して、必要
なプログラムをコンピュータにダウンロードし、これを
実行する態様を採るものとしてもよい。

【００９０】（４）未知語登録装置を利用した仮名漢字
変換装置次に、上記未知語登録装置を利用した仮名漢字変換装置
としての実施例について説明する。該仮名漢字変換装置
の構成は、図１および図２に示した日本語入力装置の構
成と同様である。また、仮名漢字変換装置により参照さ
れる辞書には、先に説明した未知語自動登録ルーチン
（図３）により、未知語が自動的に登録されている。但
し、辞書に未知語が追加登録される際には、管理データ
として、登録される単語が未知語であることを示すイン
デックスと、未知語の登録年月日が付されている。後で
詳説するが、図９に示した辞書データに含まれる「＊」
なるインデックスおよび「１９９７０８１８」なるデー
タが該当する。仮名漢字変換装置は、ＣＰＵ２０が図８
に示す仮名漢字変換処理ルーチンを実行することにより
仮名漢字変換を行う。なお、仮名漢字変換には、入力さ
れた平仮名文字列から仮名漢字混じり表記への変換のみ
ならず、カタカナ文字列や英字、数字混じりの文字列
等、入力された平仮名文字列と同義の種々の表記に変換
することを含めるものとしてもよい。

【００９１】図８に示した仮名漢字変換処理ルーチンの
流れ、および図９に示した具体例により、仮名漢字変換
処理について説明する。仮名漢字変換処理ルーチンが実
行されると、ＣＰＵ２０は、仮名文字列を読み込む（ス
テップＳ６００）。図９の具体例によれば、入力画面
（ａ）および入力画面（ｂ）に示された通り、平仮名文
字列である「たんご」または「ふくご」を読み込む。

【００９２】次に、ＣＰＵ２０は辞書を参照して、該仮
名文字列に該当する仮名漢字混じり表記を辞書データか
ら読み込む（ステップＳ６０５）。図９に基づいて説明
すれば、「たんご」なる文字列に対しては、「単語」な
る仮名漢字混じり表記が得られ、「ふくご」なる文字列
に対しては、「複語」なる仮名漢字混じり表記が得られ
る。なお、「複語」とは「単語」に対して設けられた造
語であり、使用者により未知語登録されている語であ
る。従って、「ふくご」に対しては、辞書データに
「＊」なる文字が付されている。この記号は、「ふく
ご」が未知語として登録された単語であることを示すイ
ンデックスである。予め辞書に備えられている単語（以
下、既知語という）である「たんご」には、このような
記号は付されていない。また、「ふくご」には「１９９
７０８１８」なる文字列データも添えられている。これ
は、登録日、即ち「ふくご」が「１９９７年８月１８
日」に登録されたことを意味するデータである。既知語
である「たんご」については登録日データは「００００
００００」なる文字列となっている。

【００９３】こうして、仮名漢字混じり標記を得た後、
ＣＰＵ２０は、上記インデックス「＊」または登録日デ
ータにより、参照した単語が未知語であるか否かを判定
する（ステップＳ６１０）。なお、上述の管理データは
未知語と既知語とを区別することができるものであれば
よく、上記のインデックス等の他、品詞データの一つと
して「未知語」なる品詞データをもつものとしてもよい
し、該データが参照された回数データに基づいて判断す
るものとしてもよい。

【００９４】ＣＰＵ２０は、単語が既知語である場合に
は既知語表示をし（ステップＳ６１５）、未知語である
場合には未知語表示をする（ステップＳ６２０）。図９
に基づいて説明すれば、既知語である「単語」について
は、出力画面（ａ）に示す通り「単語」なる語がそのま
ま表示される。一方、未知語である「複語」について
は、出力画面（ｂ）に示す通り「複語」なる語が枠囲み
を伴って表示される。かかる表示により、使用者は「複
語」が未知語として登録された語であることを認識する
ことができる。

【００９５】なお、未知語表示（ステップＳ６２０）と
しては、未知語と既知語とを明確に識別し得る表示であ
ればよい。例えば、未知語を他の文字列と色を変えて表
示したり、フォントや文字サイズ等を変えて表示した
り、未知語部分にはアンダーラインやハッチングを付し
て表示するなど、種々の態様による表示が考えられる。
また、仮名文字列からの変換候補が複数表示される場合
においても、変換候補中に未知語が含まれている場合に
は、他の候補と明確に識別し得る状態で表示されれるも
のとしてもよい。

【００９６】かかる仮名漢字変換装置によれば、未知語
表示に基づき、該仮名漢字変換装置の使用者は辞書に登
録された未知語の内容を認識することができ、使用者の
意図しない形で辞書に登録された単語を発見することが
できる。この結果、辞書の維持管理を容易に行うことが
可能となる。

【００９７】以上、本発明の実施例について説明してき
たが、本発明はこれらに限定されるものではなく、その
要旨を逸脱しない範囲で、種々の形態による実施が可能
である。例えば、上記実施例においては、辞書に存在し
ない未知語を新たに追加登録する場合について説明して
いるが、辞書に存在する単語について未知語品詞推定処
理（図６）や見出し作成処理（図７）を施すことによ
り、その品詞または読みの修正を行うものとしてもよ
い。

【図面の簡単な説明】

【図１】本実施例の未知語登録装置を含む日本語入力装
置の制御ロジックを示すブロック図である。

【図２】日本語入力装置のハードウェアを示すブロック
図である。

【図３】未知語自動登録ルーチンの流れを示すフローチ
ャートである。

【図４】形態素解析ルーチンの流れを示すフローチャー
トである。

【図５】未知語抽出処理ルーチンの流れを示すフローチ
ャートである。

【図６】未知語品詞推定処理ルーチンの流れを示すフロ
ーチャートである。

【図７】見出し語作成処理ルーチンの流れを示すフロー
チャートである。

【図８】仮名漢字変換処理ルーチンの流れを示すフロー
チャートである。

【図９】未知語表示例を示す説明図である。

【符号の説明】

２０・・・ＣＰＵ２２・・・ＲＯＭ２４・・・ＲＡＭ２６・・・ハードディスク２７・・・ＣＤ−ＲＯＭドライブ２８・・・入出力ポート３０・・・キーボード３２・・・ＣＲＴディスプレイ３４・・・プリンタ３６・・・スキャナ３８・・・バス４０・・・入力部４２・・・出力部４４・・・表示部４６・・・入出力制御部４８・・・文字受取部５０・・・形態素解析部５２・・・形態素出力部５４・・・文節候補格納部５６・・・未知語抽出部５８・・・単語候補格納部６０・・・未知語登録部６２・・・自立語辞書６４・・・付属語辞書６６・・・未知語削除部

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁶ 識別記号ＦＩＧ０６Ｆ 15/401 ３４０Ａ

Claims

【特許請求の範囲】

【請求項１】品詞データを含む辞書を備え、日本語文
字列を入力する日本語入力装置において参照される前記
辞書に存在しない未知語を、該辞書に自動登録する未知
語登録装置であって、入力された日本語文字列を、前記辞書を参照して文節に
分かち書きする手段と、該分かち書き結果に基づいて、前記辞書に存在しない未
知語を、前記入力された日本語文字列から抽出する未知
語抽出手段と、該未知語に前接または後接する語である連接語を、前記
入力された日本語文字列から少なくとも一つ抽出する連
接語抽出手段と、該連接語の構成、または前記辞書に記憶されている前記
連接語の言語上の属性を示すデータに基づいて該未知語
の品詞を判定する品詞判定手段と、前記判定された品詞を含めて前記未知語に関するデータ
を前記辞書に追加登録する追加登録手段とを備える未知
語登録装置。
【請求項２】請求項１の未知語登録装置であって、前記品詞判定手段は、該未知語の直後に後接する前記連接語が、「する」を含
む動詞またはその活用形である場合には、該未知語は該
動詞と結合可能な名詞であるサ変名詞と判定する手段で
ある未知語登録装置。
【請求項３】請求項１の未知語登録装置であって、前記品詞判定手段は、該未知語の直後に後接する前記連接語の構成が、仮名文
字「な」である場合には、該未知語は形容動詞であると
判定する手段である未知語登録装置。
【請求項４】請求項１の未知語登録装置であって、前記品詞判定手段は、該未知語の直後に後接する第１の連接語の構成が、仮名
文字「な」であり、該第１の連接語の直後に後接する第
２の連接語について前記辞書に登録されている品詞が体
言に含まれる品詞である場合には、該未知語は形容動詞
であると判定する手段である未知語登録装置。
【請求項５】請求項１の未知語登録装置であって、前記品詞判定手段は、前記連接語の品詞が接頭語または接尾語である場合に
は、該接頭語または接尾語に関して前記辞書に用意され
たデータのうち、該接頭語または接尾語が地名、人名そ
の他細分化されたいずれの名詞と結合しやすいかをあら
わす結合属性データに応じて、該未知語は前記細分化さ
れたいずれかの名詞であると判定する手段である未知語
登録装置。
【請求項６】品詞データを含む辞書を備え、日本語文
字列を入力する日本語入力装置において参照される辞書
に存在しない未知語を、該辞書に自動登録する未知語登
録装置であって、入力された日本語文字列を、前記辞書を参照して文節に
分かち書きする手段と、該分かち書き結果に基づいて、前記辞書に存在しない未
知語を、入力された日本語文字列から抽出する未知語抽
出手段と、固有名詞にのみ用いられるものとして前記辞書に登録さ
れた固有名漢字が、該未知語の中に含まれているか否か
を判定する固有名漢字判定手段と、前記未知語の中に前記固有名漢字が含まれている場合に
は、該未知語は固有名詞であると判定する品詞判定手段
と、前記判定された品詞を含めて前記未知語に関するデータ
を前記辞書に追加登録する追加登録手段とを備える未知
語登録装置。
【請求項７】辞書を参照しつつ入力された仮名文字列
を仮名漢字混じり表記に仮名漢字変換する仮名漢字変換
装置であって、予め用意された辞書に存在しない未知語に関するデータ
を、所定の管理データを含んだ未知語データとして、該
辞書に追加登録する未知語登録手段と、仮名漢字変換において前記未知語データが参照された場
合には、前記管理データに基づいて該未知語を他の文字
列と識別可能な方法で表示する未知語表示手段とを備え
る仮名漢字変換装置。
【請求項８】品詞データを含む辞書を備え、日本語文
字列を入力する日本語入力装置において参照される前記
辞書に存在しない未知語を、コンピュータにより該辞書
に自動登録させる未知語登録方法であって、入力された日本語文字列を、前記辞書を参照して文節に
分かち書きさせ、該分かち書き結果に基づいて、前記辞書に存在しない未
知語を、入力された日本語文字列から抽出させ、該未知語に前接または後接する語である連接語を、前記
入力された日本語文字列から少なくとも一つ抽出させ、該連接語の構成、または該連接語に関し前記辞書に記憶
されている言語上の属性データに基づいて該未知語の品
詞を判定させ、前記判定された品詞を含めて前記未知語に関するデータ
を前記辞書に追加登録させる未知語登録方法。
【請求項９】日本語文字列を入力する際に参照される
品詞データを含む辞書に存在しない未知語を、該辞書に
自動登録する機能をコンピュータにより実現させるプロ
グラムを記録したコンピュータ読みとり可能な記録媒体
であって、入力された日本語文字列を文節に分かち書きし、前記辞
書に存在しない語を、前記日本語文字列から抽出するこ
とによって得られた未知語を入力する機能と、該未知語に前接または後接する語である連接語を前記日
本語文字列から少なくとも一つ抽出する機能と、該連接語の構成、または該連接語に関し前記辞書に記憶
されている言語上の属性データに基づいて該未知語の品
詞を判定する品詞判定機能と、前記判定された品詞を含めて前記未知語に関するデータ
を前記辞書に追加登録する機能とをコンピュータにより
実現させるプログラムを記録した記録媒体。
【請求項１０】請求項９の記録媒体であって、前記品詞判定機能として、該未知語の直後に後接する前記連接語が、「する」を含
む動詞またはその活用形である場合には、該未知語は該
動詞と結合可能な名詞であるサ変名詞と判定する機能を
コンピュータにより実現させるプログラムを記録した記
録媒体。
【請求項１１】請求項９の記録媒体であって、前記品詞判定機能として、該未知語の直後に後接する前記連接語の構成が、仮名文
字「な」である場合には、該未知語は形容動詞であると
判定する機能をコンピュータにより実現させるプログラ
ムを記録した記録媒体。
【請求項１２】請求項９の記録媒体であって、前記品詞判定機能として、前記連接語の品詞が接頭語または接尾語である場合に
は、該接頭語または接尾語に関して前記辞書に用意され
たデータのうち、該接頭語または接尾語が地名、人名そ
の他細分化されたいずれの名詞と結合しやすいかをあら
わす結合属性データに応じて、該未知語は前記細分化さ
れたいずれかの名詞であると判定する機能をコンピュー
タにより実現させるプログラムを記録した記録媒体。
【請求項１３】日本語文字列を入力する際に参照され
る品詞データを含む辞書に存在しない未知語を、該辞書
に自動登録する機能をコンピュータにより実現させるプ
ログラムを記録したコンピュータ読みとり可能な記録媒
体であって、入力された日本語文字列を文節に分かち書きし、前記辞
書に存在しない語を、前記日本語文字列から抽出するこ
とによって得られた未知語を入力する機能と、人名にのみ用いられるものとして前記辞書に登録された
人名漢字が、該未知語の中に含まれているか否かを判定
する機能と、固有名詞にのみ用いられるものとして前記辞書に登録さ
れた固有名漢字が、該未知語の中に含まれているか否か
を判定する機能と、前記判定された品詞を含めて前記未知語に関するデータ
を前記辞書に追加登録する機能とをコンピュータにより
実現させるプログラムを記録した記録媒体。