JP2004265440A

JP2004265440A - 未知語登録装置および方法並びに記録媒体

Info

Publication number: JP2004265440A
Application number: JP2004132643A
Authority: JP
Inventors: Yasuo Koyama; 泰男小山
Original assignee: A I Soft Inc
Current assignee: A I Soft Inc
Priority date: 2004-04-28
Filing date: 2004-04-28
Publication date: 2004-09-24

Abstract

【課題】辞書データへの未知語自動登録装置では、仮名、漢字、英字等が混じって入力された日本語の文章からの未知語の抽出、および該未知語の品詞の推定をすることができなかった。
【解決手段】コンピュータにより、入力された日本語文字列を辞書を参照しつつ形態素解析して文節に分かち書きし、該結果に基づいて前記辞書に存在しない未知語を、前記日本語文字列から抽出する。また、該未知語に前接または後接する語である連接語を、前記入力された日本語文字列から少なくとも一つ抽出する。次に、未知語に含まれる文字構成に基づいて品詞を判定する。また、連接語の構成、又は連接語の言語的属性（品詞および接頭語・接尾語の意味等）によっても該未知語の品詞を判定する。さらに未知語の全ての読みを推定した上で、判定された品詞および全ての読みを含めて未知語に関するデータを辞書に追加登録する。
【選択図】図１

Description

本発明は、日本語入力装置において参照される辞書に存在しない未知語を、その品詞を推定した上で、該辞書に自動登録する技術に関する。

従来、日本語入力装置の一つとして、キーボードなどから入力された仮名文字列を所望の仮名漢字混じり文に変換する種々の仮名漢字変換装置が提案されている。仮名漢字変換装置は、予め用意された辞書を参照することにより、入力された仮名文字列に対応する漢字表記を検索し、仮名文字列を各表記に変換する装置である。

かかる仮名漢字変換装置で日本語を正確に入力するためには、前記辞書に豊富な単語が登録されていることが重要となるが、実際に使用される全ての単語を登録した辞書を作成することは非常に困難である。仮名漢字変換装置の使用者が用いる用語はその使用者が入力する内容によってまちまちであり、また、日常生活においても多種多様な単語が新語として作り出されているからである。更に、住所、氏名や商品名等まで辞書に登録しようとすることは、ほとんど不可能に近い。かかる課題を解決しつつ、使用者にとっての利便性を確保すべく、多くの仮名漢字変換装置は予め基本的な単語のみを登録した辞書を用意しておき、該辞書に存在しない単語については、使用者が前記辞書に新たな単語、即ち未知語を追加登録できる機能を設けている。また、かかる未知語を自動的に検出し、前記辞書に自動登録する装置も提案されている（特開平６−１２４５３等）。

上記仮名漢字変換装置では、入力された日本語文を使用者が望んだ表記に正確に変換するために、文節分かち書きの処理を工夫している。文節分かち書きの処理とは、例えば「くるまではこをはこぶ」と入力された仮名文字列を、辞書に登録された各単語の品詞情報等を参照することで、「くるまで／はこを／はこぶ」と解析する処理をいう（例えば、特開平７−２９５９７５等）。文節分かち書きの精度を向上するためには、辞書に前記未知語を追加登録する際に、その品詞も合わせて登録することが必要となる。

一方、日本語入力装置として、最近、日本語の文章をスキャナ等で取り込んだイメージ情報から、そこに記載されている文字を認識し、文字データに変換する装置、いわゆるＯＣＲ装置も普及している。かかる装置では、イメージ情報から文字データへの変換精度、つまり識字率を向上するために、一文字単位での変換のみならず、入力された日本語文字列を前記辞書を参照して文節分かち書きし、単語単位で適切な文字への変換を行うことがなされている。従って、このような機能を有するＯＣＲ装置における識字率を向上するためには、充実した辞書を備えることが重要となり、仮名漢字変換装置の場合と同様、未知語を辞書に追加登録することが重要となる。この際においても、該未知語の品詞も合わせて登録することが必要となる。

しかし、上記仮名漢字変換装置における未知語の登録機能では、品詞を自動推定することはできなかった。つまり、使用者が未知語の品詞を判定し、品詞リスト中から選択する方法等によって入力していた。このため、辞書における品詞情報の重要性を理解した上で、使用者が適切な品詞を選択することは困難であった。未知語の品詞が適切に登録されない場合には、文節分かち書きの精度、ひいては仮名漢字変換の精度および識字率が向上できなかった。

また、従来より存在する未知語の自動登録機能は、仮名漢字変換装置を対象としたものであり、ＯＣＲ装置のように仮名、漢字、英字等が混じって入力された日本語の文章から未知語を抽出することはできなかった。従って、ＯＣＲ装置では、識字率向上のために使用者が辞書に未知語を登録する必要があった。

本発明は上記課題の少なくとも一部を解決するためになされ、仮名、漢字、英字等が混じって入力された日本語の文章から未知語を抽出し、該未知語の品詞を推定した上で辞書に自動登録する技術を提供することを目的とする。

上記課題の少なくとも一部を解決するために、本発明では次の構成を採った。
本発明の第１の未知語登録装置は、
品詞データを含む辞書を備え、日本語文字列を入力する日本語入力装置において参照される前記辞書に存在しない未知語を、該辞書に自動登録する未知語登録装置であって、
入力された日本語文字列を、前記辞書を参照して文節に分かち書きする手段と、
該分かち書き結果に基づいて、前記辞書に存在しない未知語を、前記入力された日本語文字列から抽出する未知語抽出手段と、
該未知語に前接または後接する語である連接語を、前記入力された日本語文字列から少なくとも一つ抽出する連接語抽出手段と、
該連接語の構成、または前記辞書に記憶されている前記連接語の言語上の属性を示すデータに基づいて該未知語の品詞を判定する品詞判定手段と、
前記判定された品詞を含めて前記未知語に関するデータを前記辞書に追加登録する追加登録手段とを備えることを要旨とする。

また、本発明の第１の未知語登録方法は、
品詞データを含む辞書を備え、日本語文字列を入力する日本語入力装置において参照される前記辞書に存在しない未知語を、コンピュータにより該辞書に自動登録させる未知語登録方法であって、
入力された日本語文字列を、前記辞書を参照して文節に分かち書きさせ、
該分かち書き結果に基づいて、前記辞書に存在しない未知語を、入力された日本語文字列から抽出させ、
該未知語に前接または後接する語である連接語を、前記入力された日本語文字列から少なくとも一つ抽出させ、
該連接語の構成、または該連接語に関し前記辞書に記憶されている言語上の属性データに基づいて該未知語の品詞を判定させ、
前記判定された品詞を含めて前記未知語に関するデータを前記辞書に追加登録させることを要旨とする。

上記未知語登録装置または未知語登録方法では、入力された日本語文字列を辞書を参照して文節に分かち書きし、その結果に基づいて、前記辞書に存在しない未知語を入力された日本語文字列から抽出する。また、該未知語に前接または後接する語（以下、連接語とよぶ）を、前記入力された日本語文字列から少なくとも一つ抽出する。こうして抽出された連接語の構成、または該連接語に関し前記辞書に記憶されている言語上の属性データに基づいて該未知語の品詞を判定し、その品詞を含めて未知語に関するデータを辞書に追加登録する。従って、上記未知語登録装置または未知語登録方法によれば、辞書への未知語の自動登録が品詞も含めて可能となり、ひいては日本語入力装置における仮名漢字変換の精度や識字率の向上を図ることができる。

上記未知語登録装置、または未知語登録方法は、仮名文字列のみならず、仮名、漢字、英字等が混じった文章であっても適用できる。なお、本明細書における品詞は原則的にはいわゆる国文法における品詞（名詞、形容詞等）と同じ意味であるが、文節分かち書きや仮名漢字変換の精度および識字率を向上する目的に使用される特殊性に鑑み、国文法における品詞よりも細分化された品詞を用いる場合もある。かかる場合には、品詞の定義を合わせて記載する。

ここで、連接語の構成とは、連接語に含まれる文字に注目した構成を意味しており、例えば、連接語がある特定の仮名文字により構成されていることに基づいて品詞の推定をする場合等が含まれる。また、連接語の言語上の属性データとは、連接語自体の品詞や、該連接語がどのような品詞の単語と結合しやすいかという性質等をいう。連接語の言語上の属性データは、辞書データに登録されているデータを用いるものとしてもよいし、未知語登録装置において個別に用意するものとしてもよい。具体的な品詞判定手段としては、次の態様が考えられる。

第１の態様による前記品詞判定手段は、
該未知語の直後に後接する前記連接語が、「する」を含む動詞またはその活用形である場合には、該未知語は該動詞と結合可能な名詞であるサ変名詞と判定する手段である。

第２の態様による前記品詞判定手段は、
該未知語の直後に後接する前記連接語の構成が、仮名文字「な」である場合には、該未知語は形容動詞であると判定する手段である。

第３の態様による前記品詞判定手段は、
該未知語の直後に後接する第１の連接語の構成が、仮名文字「な」であり、該第１の連接語の直後に後接する第２の連接語について前記辞書に登録されている品詞が体言に含まれる品詞である場合には、該未知語は形容動詞であると判定する手段である。

第４の態様による前記品詞判定手段は、
前記連接語の品詞が接頭語または接尾語である場合には、該接頭語または接尾語に関して前記辞書に用意されたデータのうち、該接頭語または接尾語が地名、人名その他細分化されたいずれの名詞と結合しやすいかをあらわす結合属性データに応じて、該未知語は前記細分化されたいずれかの名詞であると判定する手段である。

前記第１の態様における、「する」を含む動詞とはいわゆるサ行変格活用動詞（例えば、「する」、「決する」等）であり、その活用形とは、いわゆるサ行変格活用による活用形（「せ」、「し」、「すれ」、「せよ」等）である。また、サ行変格活用動詞の一つとして、「ずる」を含む動詞（例えば、「信ずる」等）およびその活用形（「ぜ」、「じ」、「ずれ」、「ぜよ」等）（かかる動詞を以下、「ザ行変格活用動詞」とよぶ）を含むものとしてもよい。なお、第１の態様における「サ変名詞」とは、名詞を細分化して定義した品詞の一つであり、サ行変格活用動詞と結合可能な名詞、即ち、該名詞の後にサ行変格活用動詞が結合し得る名詞をいう。また、ザ行変格活用動詞も含めて品詞判定を行う場合には、該動詞と結合可能な名詞をザサ変名詞と定義して登録するものとしてもよい。

前記第２の態様においては、該未知語の直後に後接する連接語の構成が、仮名文字「な」から構成されている場合には、形容動詞であると判定する。形容動詞については、国文法上、種々の定義がなされているが、本明細書では、いわゆる連体形の活用語尾が「な」であり、終止形の活用語尾が「だ」であるものは、全て形容動詞であると定義する。従って、形容動詞の品詞判定をより確実にするためには、第３の態様として示した通り、未知語の直後に後接する第１の連接語「な」のみならず、その直後に後接する第２の連接語が名詞、代名詞または数詞等の体言に含まれる品詞であるという条件も合わせて判定することが望ましい。

なお、上記手段による品詞判定は、上記未知語登録装置の未知語抽出手段が、形容動詞の語幹部分を未知語として抽出してくる場合に有効となるものである。一方、形容動詞の語尾「な」も含めて未知語として抽出するような未知語抽出手段が用いられているような場合には、未知語の語尾が仮名文字「な」である場合により形容動詞であると判定する手段としてもよい。

第４の態様では、接頭語または接尾語（以下、両者を合わせて接辞語とよぶ）の結合属性に基づいて、未知語の品詞を判定する。国文法においては、接辞語は単語の一部を構成する要素として扱われ品詞としては扱われないが、本明細書においては、独立した品詞として扱うものとする。また、独立した名詞であっても接辞語になり得る単語については、接辞語としても扱うものとする。接辞語にはそれぞれ地名、人名その他細分化されたいずれの名詞と結合しやすいかをあらわす結合属性データが合わせて辞書に登録されている。例えば、接尾語「町」「市」等は、地名と結合しやすい結合属性データを有していることになる。従って、かかる接尾語が連接する未知語は地名であると判定される。このように第４の態様では、名詞を地名、人名等の更に細分化し、この範囲で品詞を判定するのである。かかるグループとしては、例えば、地名、人名、会社名、組織名、建物名、商品名等を挙げることができる。

本発明の第２の未知語登録装置は、
品詞データを含む辞書を備え、日本語文字列を入力する日本語入力装置において参照される前記辞書に存在しない未知語を、該辞書に自動登録する未知語登録装置であって、
入力された日本語文字列を、前記辞書を参照して文節に分かち書きする手段と、
該分かち書き結果に基づいて、前記辞書に存在しない未知語を、入力された日本語文字列から抽出する未知語抽出手段と、
固有名詞にのみ用いられるものとして前記辞書に登録された固有名漢字が、該未知語の中に含まれているか否かを判定する固有名漢字判定手段と、
前記未知語の中に前記固有名漢字が含まれている場合には、該未知語は固有名詞であると判定する品詞判定手段と、
前記判定された品詞を含めて前記未知語に関するデータを前記辞書に追加登録する追加登録手段とを備えることを要旨とする。

かかる未知語登録装置によれば、入力された日本語文字列を辞書を参照して文節に分かち書きし、その結果に基づいて、前記辞書に存在しない未知語を入力された日本語文字列から抽出する。こうして抽出された未知語について、固有名漢字が用いられているか否かを判定し、固有名漢字が含まれている場合には、該未知語は固有名詞であると判定し、その品詞を含めて未知語に関するデータを辞書に追加登録する。固有名詞を人名、地名、社名、商品名等、さらに細分化し、これらのグループで品詞を判定するものとしてもよい。かかる上記未知語登録装置または未知語登録方法によれば、辞書への未知語の自動登録が品詞も含めて可能となり、ひいては日本語入力装置における仮名漢字変換の精度や識字率の向上を図ることができる。固有名漢字であるか否かは辞書に登録されたデータに基づいて判断されるが、未知語登録装置において個別に判断基準を有するものとしてもよい。

以上に説明した本発明は、コンピュータを用いて構成することが可能である。従って、本発明は、以下に示す通り、コンピュータにより種々の機能を実現するためのプログラムを記録した記録媒体としての態様を採ることもできる。

本発明の第１の記録媒体は、
日本語文字列を入力する際に参照される品詞データを含む辞書に存在しない未知語を、該辞書に自動登録する機能をコンピュータにより実現させるプログラムを記録したコンピュータ読みとり可能な記録媒体であって、
入力された日本語文字列を文節に分かち書きし、前記辞書に存在しない語を、前記日本語文字列から抽出することによって得られた未知語を入力する機能と、
該未知語に前接または後接する語である連接語を前記日本語文字列から少なくとも一つ抽出する機能と、
該連接語の構成、または該連接語に関し前記辞書に記憶されている言語上の属性データに基づいて該未知語の品詞を判定する品詞判定機能と、
前記判定された品詞を含めて前記未知語に関するデータを前記辞書に追加登録する機能とをコンピュータにより実現させるプログラムを記録した記録媒体である。

また、この記録媒体は、
前記品詞判定機能として、
該未知語の直後に後接する前記連接語が、動詞「する」またはその活用形である場合には、該未知語は動詞「する」と結合可能な名詞であるサ変名詞と判定する機能をコンピュータにより実現させるプログラムを記録した記録媒体としてもよい。

同じく、この記録媒体は、
前記品詞判定機能として、
該未知語の直後に後接する前記連接語の構成が、仮名文字「な」である場合には、該未知語は形容動詞であると判定する機能をコンピュータにより実現させるプログラムを記録した記録媒体としてもよい。

同じく、この記録媒体は、
前記品詞判定機能として、
前記連接語の品詞が接頭語または接尾語である場合には、該接頭語または接尾語に関して前記辞書に用意されたデータのうち、該接頭語または接尾語が地名、人名その他細分化されたいずれの名詞と結合しやすいかをあらわす結合属性データに応じて、該未知語は前記細分化されたいずれかの名詞であると判定する機能をコンピュータにより実現させるプログラムを記録した記録媒体としてもよい。

本発明の第２の記録媒体は、
日本語文字列を入力する際に参照される品詞データを含む辞書に存在しない未知語を、該辞書に自動登録する機能をコンピュータにより実現させるプログラムを記録したコンピュータ読みとり可能な記録媒体であって、
入力された日本語文字列を文節に分かち書きし、前記辞書に存在しない語を、前記日本語文字列から抽出することによって得られた未知語を入力する機能と、
人名にのみ用いられるものとして前記辞書に登録された人名漢字が、該未知語の中に含まれているか否かを判定する機能と、
固有名詞にのみ用いられるものとして前記辞書に登録された固有名漢字が、該未知語の中に含まれているか否かを判定する機能と、
前記判定された品詞を含めて前記未知語に関するデータを前記辞書に追加登録する機能とをコンピュータにより実現させるプログラムを記録した記録媒体である。

上述の各記録媒体に記録されたプログラムがコンピュータにより実行され、それぞれの機能が実現されると、先に説明した未知語登録装置を構成することができる。

なお、記録媒体としては、フレキシブルディスクやＣＤ−ＲＯＭ、光磁気ディスク、ＩＣカード、ＲＯＭカートリッジ、パンチカード、バーコードなどの符号が印刷された印刷物、コンピュータの内部記憶装置（ＲＡＭやＲＯＭなどのメモリ）および外部記憶装置等の、コンピュータが読取り可能な種々の媒体を利用できる。また、コンピュータに上記の発明の各工程または各手段の機能を実現させるコンピュータプログラムを通信経路を介して供給する態様、つまりプログラムをネットワーク上のサーバなどに置き、通信経路を介して、必要なプログラムをコンピュータにダウンロードし、これを実行する態様を採るものとしてもよい。

以上で説明した未知語登録装置であるか否かを問わず、種々の未知語登録装置を利用した装置である本発明の仮名漢字変換装置は、
辞書を参照しつつ入力された仮名文字列を仮名漢字混じり表記に仮名漢字変換する仮名漢字変換装置であって、
予め用意された辞書に存在しない未知語に関するデータを、所定の管理データを含んだ未知語データとして、該辞書に追加登録する未知語登録手段と、
仮名漢字変換において前記未知語データが参照された場合には、前記管理データに基づいて該未知語を他の文字列と識別可能な方法で表示する未知語表示手段とを備えることを要旨とする。

かかる仮名漢字変換装置は、辞書に未知語データを追加登録する際に、所定の管理データを含んだ形で登録することができる。所定の管理データとは、登録された単語が未知語であることを示すインデックスとしてもよいし、登録された日付等としてもよい。かかる管理データを含めて登録された単語が仮名漢字変換において参照されると、上記仮名漢字変換装置は、該単語が未知語であることを認識し、他の文字列と識別可能な方法で表示する。かかる表示に基づき、該仮名漢字変換装置の使用者は辞書に登録された未知語の内容を認識することができ、使用者の意図しない形で辞書に登録された単語を発見することができる。この結果、辞書の維持管理を容易に行うことが可能となる。

かかる仮名漢字変換装置では、先に説明した種々の態様による未知語登録装置を利用することが望ましいが、所定の管理データを付して辞書に未知語を登録できるものであれば、いずれの未知語登録装置を利用するものとしてもよい。なお、仮名漢字変換とは、平仮名の文字列を漢字仮名混じり表記に変換することのみならず、カタカナ文字列や英字、数字混じりの文字列等、入力された平仮名文字列と同義の種々の表記に変換することを含めるものとしてもよい。また、未知語を他の文字列を識別可能に表示する方法には、例えば、未知語を他の文字列と色を変えて表示したり、フォントや文字サイズ等を変えて表示したり、未知語部分にはアンダーラインやハッチングを付して表示するなど、種々の態様による表示が可能である。

以下本発明の実施の形態について実施例に基づいて説明する。図１は、本実施例の未知語登録装置を含む日本語入力装置の制御ロジックを示すブロック図、図２は、この日本語入力装置のハードウェアを示すブロック図である。説明の便宜上、まずハードウェアの概略構成を図２を用いて説明する。

（１）実施例の概略構成
図２に示すように、日本語入力装置の内部では、ＣＰＵ２０、ＲＯＭ２２、ＲＡＭ２４、ハードディスク２６、ＣＤ−ＲＯＭドライブ２７がバス３８により相互に接続されている。また、このバス３８には、入出力ポート２８も接続されている。入出力ポート２８には、入出力装置として、キーボード３０、ＣＲＴディスプレイ３２、プリンタ３４、スキャナ３６がそれぞれ接続されている。なお、ＣＤ−ＲＯＭドライブ２７はプログラムが格納された記録媒体に応じた記録媒体読みとり装置とすることができる。例えば、記録媒体として、いわゆるフレキシブルディスクを用いる場合には、ＣＤ−ＲＯＭドライブ２７に代えて、またはＣＤ−ＲＯＭドライブ２７とともにフレキシブルディスクドライブをバス３８に接続するものとしてもよい。

上記ＣＰＵ２０は周知のものであり、ＲＯＭ２２は基本ソフトウェア等を記憶するマスクメモリ、ＲＡＭ２４は主記憶を構成する読み出しおよび書き込みが可能なメモリである。また、ハードディスク２６にはＲＡＭ２４にロードされて実行される仮名漢字変換プログラムその他の各種プログラムや、そのプログラムが参照する各種変換辞書などが記憶されている。なお、仮名漢字変換プログラムは、ＲＯＭ２２に記憶しておくものとしてもよいし、ＣＤ−ＲＯＭに記憶しておきＣＤ−ＲＯＭドライブ２７を介してＲＡＭ２４に読み込むものとしてもよい。

こうして構成されたハードウエアにより、文章の入力，仮名漢字変換，編集，表示，印刷などの機能が実現される。文章の入力は、キーボード３０から文字列の形でなされる場合もあれば、スキャナ３６からイメージ情報として入力される場合もある。こうして入力された文章は、ＣＰＵ２０により後述する種々の処理がなされ、ＲＡＭ２４の所定領域に格納され、ＣＲＴ２６の画面上に表示されたり、プリンタ３４から出力されたりする。

次に、本実施例の日本語入力装置を機能ブロックで捕らえた場合の各部分の働きを図１を用いて説明する。図１に示した各機能ブロックのほとんどは、ＣＰＵ２０がソフトウェアに基づいて実行するものである。

入力部４０には図２のキーボード３０およびスキャナ３６が相当し、日本語の文章を入力する部分である。入力部４０から入力された文章は、入出力制御部４６の制御の下、文字受取部４８に送出される。ここで、入出力制御部４６は、例えばキーボード３０の操作がなされたとき、ＣＰＵ２０に所定の割り込み処理をかけ、文字列の入力処理を実行する等の制御を行う。また、スキャナ３６から文章が入力される場合には、スキャナ３６のドライバを起動する。

こうして入力された文章は、形態素解析部５０により、形態素解析がなされる。形態素解析とは、例えば「くるまではこをはこぶ」と入力された仮名文字列を、辞書に登録された各単語の品詞情報等を参照することで、「くるまで／はこを／はこぶ」と解析する処理をいう。この際、形態素解析部５０は、メモリ（ＲＯＭ２２、ＲＡＭ２４、ハードディスク２６）に記録された自立語辞書６２や付属語辞書６４を参照する。また、解析の途中経過として得られる文節候補や単語候補をそれぞれ文節候補格納部５４、単語候補格納部５８に送出し、ＲＡＭ２４に格納する。また、仮名文字列が入力されている場合には、形態素解析部５０は形態素解析結果に基づいて、仮名漢字変換を実行する。

なお、仮名漢字変換における形態素解析の途中経過として得られ、文節候補格納部５４、単語候補格納部５８に記憶されたそれぞれの候補は、入出力制御部４６を介して表示部４４に表示される。これらの文字列が非所望の文字列である可能性もあるため、形態素解析部５０は使用者による指示を受けて、次候補の表示や選択などの処理を行う。図示していないが、これらの指示や選択の結果などは、学習結果として格納されている。

一方、形態素解析部５０が文章の形態素解析を終了した後は、その結果を形態素出力部５２に送出する。形態素出力部５２は、さらに入出力制御部４６を介して出力部４２または表示部４４に結果を出力する。出力部４２には図２のプリンタ３４が相当し、表示部４４には図２のＣＲＴディスプレイ３２が相当する。

形態素解析の結果は、形態素出力部５２から未知語抽出部５６へも引き渡される。未知語抽出部５６は、形態素解析結果に基づいて、自立語辞書６２および自立語辞書６２に存在しない未知語を抽出する。こうして抽出された未知語は、未知語登録部６０に引き渡される。未知語登録部６０は、各未知語について品詞の判定等、後述する所定の処理を行った上、自立語辞書６２または付属語辞書６４に未知語を登録する。また、自立語辞書６２および付属語辞書６４は、未知語削除部６６によっても書き換え可能となっており、登録された未知語を必要に応じて削除することが可能となっている。

（２）未知語自動登録処理
次に、本実施例の未知語登録装置による未知語自動登録処理について図３に基づいて説明する。図３は、未知語自動登録ルーチンの流れを示すフローチャートである。このルーチンは、図２に示したＣＰＵ２０により、日本語入力が実行されている最中に自動的に行われる処理である。日本語入力が終了した後に、所定のコマンドを入力することにより実行するものとしてもよい。

未知語自動登録ルーチンが開始されると、ＣＰＵ２０は、文章入力を行う（ステップＳ１００）。文章は、入力部４０（図１）に相当するキーボード３０またはスキャナ３６（図２）から入力される。文章は、キーボード３０から文字列の形で入力されることもあれば、スキャナ３６からイメージ情報の形で入力される場合もある。入力される文章は、仮名文字のみならず、漢字やカタカナ、英字、数字等が含まれているものであってもよい。

次に、ＣＰＵ２０は、形態素解析を実行する（ステップＳ１０５）。形態素解析に関しては、例えば２文節を基本単位とし成り立ち得る文節の中で最長の文節が得られる２文節を第１候補とする２文節最長一致法等、種々の方法が知られているが、本実施例では最小コスト法を用いている。最小コスト法とは、文節を構成する単語の候補となり得る単語および単語同士の組合わせにコストを付け、この点数が所定の条件を満たす文節を第１候補とする方法である。形態素解析の手法は、最小コスト法に限られるものではなく、既知のいずれの手法を用いても良い。

本実施例における形態素解析ルーチンについて説明する。図４にこのルーチンの流れを示す。先に述べた通り、最小コスト法と呼ばれる手法により形態素解析を行うルーチンである。この処理は、図１の機能ブロックに基づけば、形態素解析部５０が行うものである。形態素解析部５０は図２のＣＰＵ２０の一処理機能を機能ブロックとして説明したものであるため、ＣＰＵ２０が形態素解析ルーチンを実行するといっても同じ意味である。

図４に示す通り、ＣＰＵ２０は、まず一時的に保存されたデータの消去や解析位置を１桁目に初期化するなどの初期化（ステップＳ２００）を行った後、解析位置を求める処理を行う（ステップＳ２０５）。解析位置とは、入力された文章について次に解析を行う位置である。例えば、「くるまではこをはこぶ」という仮名文字列が入力されているとすれば、最初の解析位置は１桁目の「く」の位置であり、順次解析が進むにつれて、解析位置は「る」「ま」・・・と進む。この解析位置で、ＣＰＵ２０はハードディスク２６に記憶された自立語辞書６２および付属語辞書６４を検索する処理を行う（ステップＳ２１０）。先の例でいえば、「く」という語を辞書から検索する。

辞書の検索を行った後、得られた単語についてそれ以前の単語との結合をチェックする処理を行い（ステップＳ２１５）、単語間の結合がありえない場合には、該単語は無効として、更に辞書を検索する。例えば、先の例文（「くるまではこをはこぶ」）中の「こをはこぶ」の「は」について付属語辞書６４から検索された係助詞の「は」は、その直前の格助詞「を」との結合がありえないと判断されるから無効なデータとして扱われる。なお、図１のブロック図では示していないが、単語間の結合は品詞に応じて結合の可能性を示すテーブルとしてメモリ（ＲＡＭ２４、ＲＯＭ２２、ハードディスク２６）内に記憶されている。従って、辞書に各単語の品詞が適切に登録されていない場合には、上記結合のチェックを適切に行うことができない。一つの解析位置での辞書検索と結合チェックが終われば、解析位置を順に進めて更に処理を繰り返す。

結合の可能性のある単語については、ＣＰＵ２０はコスト計算を行い、その語の最小総コストを求める処理を行い、（ステップＳ２２０）、不適切なコストのものを無効とする処理を行う（ステップＳ２２５）。これは、ある語の組み合わせについて自立語＝２、付属語＝０のコストを持つものと定義して解析位置までの総コストを計算し、他の語の組合わせと比べて大きい不適切なコストの組み合わせは無効とする処理である。先に示した例に基づいて説明すると、例文（「くるまではこをはこぶ」）中の「くるま」は、「く」＋「る」＋「ま」、「くる」＋「ま」、「くるま」等種々の語の組み合わせに分けることができる。これらの各組み合わせについて単語を当てはめてコストを計算する。「く」＋「る」に対し、「苦」（自立語）＋「流」（自立語）という単語を当てはめれば、「流」はコスト４となる。一方、「くる」に対し「来る」（自立語）という単語を当てはめれば、コスト２となる。最小コスト法は、こうして求められたコストが最小となる組み合わせを採用するものであるため、この場合には、「来る」を採用することになる。かかる解析を続けていけば、「くるま」については、「車」（自立語）がコスト２で最小コストとなる。

また、「くるまで」について考えれば、「車」（自立語）＋「で」（付属語）であるため、「で」のコストは「車で」の総コストに相当するコスト２となる。同様に「来る」（自立語）＋「まで」（付属語）なる結果を考えれば、「まで」もコスト２となる。こうして得られた文節候補およびそのコストは、文節候補格納部５４（図１）に記憶される。上述のコスト計算は、辞書に登録された単語の品詞に基づいて自立語か付属語かを判断して行われるものであるため、品詞が適切に登録されていない場合には、正確なコスト計算を実行することができないことになる。

次に、こうしてコストが与えられた単語候補をリンクする処理を行う（ステップＳ２３０）。即ち、結合が有効とされた語について、ポインタを設定することで、その結合を関係づける。上述の例文中「くるまで」について説明すれば、「車／で」および「来る／まで」に対し最小総コストの計算がなされたから、「来る」については「まで」にリンクし、「車」については「で」にリンクするというように関係づけるのである。こうした結合チェックやコスト計算、そしてリンクづけの処理を、一つの解析位置で総ての単語の検索が完了するまで繰り返す。また、その解析位置での辞書の検索が完了すると、更に解析位置を一つ進めて、新たな単語の成立を検討し、同様に結合チェックやコスト計算などを繰り返す。

解析位置が、既に入力された最後の仮名文字の位置に至り、全語について解析が完了した場合には（ステップＳ２３５）、以上の処理を前提として、最小コストのパスを検索する処理を行う（ステップＳ２４０）。これは、有効とされた語の組合わせのなかで、語に付与されたコストの総和が最小になるものを検索する処理である。「くるまではこをはこぶ」の例では、「車（２）／で（２）／箱（４）／を（４）／運ぶ（６）」という分かち書きが総コスト１８で最小コストとなる。なお、かっこ書きの数字は各単語のコストを意味する。

このとき、最小コストではないが、他の文節分かち書きの候補も検索される。例えば、「車（２）／で（２）／は（２）／子（４）／を（４）／運ぶ（６）」という分かち書き（コスト＝２０）である。こうして分かち書きの候補を作成した後（ステップＳ２４５）、今度は各文節の内部での候補を作成する処理を行う（ステップＳ２５０）。即ち、ひとつの文節分かち書きの内部で、例えば「はこを」に対して「箱を」や「函を」といった候補を用意するのである。これらの文節の候補や単語の候補は、使用者により文節の分け方をかえるよう指示されたり、次候補を表示するよう指示された場合に使用される。

以上では、仮名文字列が入力された場合を例にとって、形態素解析ルーチンを説明したが、カタカナ、漢字、英字、数字等が混じった文章についての形態素解析も同様の処理である。上記説明から明らかな通り、形態素解析においては、辞書検索（ステップＳ２１０）が重要な役割を有する。

形態素解析（図３のステップＳ１０５）が終了すると、ＣＰＵ２０は次のステップに進み、未知語抽出処理を実行する（ステップＳ１１０）。これは、形態素解析ルーチンの辞書検索（図４のステップＳ２１０）において辞書に存在しなかった単語を抽出する処理である。なお、入力された文字列には、形態素解析ルーチンによれずに、所定の操作をすることにより、平仮名表記またはカタカナ表記等のまま入力が確定されることもあり、かかる単語についても辞書に存在しないものは未知語として抽出されることになる。未知語抽出処理ルーチンの流れを図５に示す。

このルーチンでは、ＣＰＵ２０は形態素解析された結果に基づいて、入力された文章の先頭から順に単語のピックアップをする（ステップＳ３００）。後述する通り、本実施例の未知語登録装置は、辞書に存在する単語が結合して新たな一つの単語を形成している場合にも未知語として辞書に追加登録する機能を有している。従って、ここで、ピックアップする単語は、純粋に一単語である場合の他、二以上の単語がひとつにまとまって新たな語を形成している場合も含まれる。つまり、ＣＰＵ２０は、文章中に含まれる単語を一つずつピックアップする処理の他、前後の単語と組み合わせてピックアップする処理も実行するのである。次に、ピックアップした単語が辞書に存在しない単語であるかの判定をする（ステップＳ３０５）。該単語が辞書に既に存在する場合には、未知語に該当しないため、未知語フラグＦに値０を代入する（ステップＳ３１５）。

ピックアップした単語が辞書に存在しない単語である場合には、次に未知語形態に該当するか否かの判定を行う（ステップＳ３１０）。未知語形態とは、未知語として登録すべき単語の構成を予め設定したものをいう。本実施例の未知語登録装置は、辞書に存在する単語が結合して新たな一つの単語を形成している場合にも未知語として辞書に追加登録するため、予めこのような形態を設定しない場合には、ひとつの未知語に連接する全ての単語との組み合わせを未知語として追加登録する可能性があり、辞書を記憶するメモリ容量がすぐに不足してしまうことになりかねない。未知語形態を以下の形態に限定することに代えて、例えば上記単語の結合については２種類までに制限したり、例えば未知語の文字数を１０文字以内に制限したりする等、数量的な制限を設けるものとしてもよい。

具体的に、本実施例で設定されている未知語形態は、次の１２形態である。なお、各形態中の例示における「／」は、２つ以上の単語が結合していることを意味するものであり、実際の未知語の一部であることを意味するものではない。
形態１：平仮名のみで構成される不定語からなるもの（例：ふじ）。
形態２：英字のみで構成される不定語からなるもの（例：ＥＸ）。
形態３：英字のみで構成される複数の単語からなり、一部が辞書に存在するもの（例：ＴＯＰ／ＳＡＬＥＳ）。
形態４：英字、記号、数字、カタカナの組み合わせで構成される不定語からなるもの（例：ＩＰアドレス）。
形態５：カタカナのみで構成される不定語からなるもの（例：アインシュタイン）。
形態６：カタカナのみで構成される複数の単語からなり、一部が辞書に存在するもの（例：アイ／マスク）。
形態７：カタカナのみで構成される単語が「・」で結合されるもの（例：トラブル・メーカー）。
形態８：接頭語、接尾語のつくもの（例：再試験、対ソ）。
形態９：漢字１文字の名詞＋漢字１文字の名詞で構成されるもの（例：愛猫）。
形態１０：漢字１文字の名詞＋漢字２文字の名詞で構成されるもの（例：亜空間）。
形態１１：漢字２文字の名詞＋漢字１文字の名詞で構成されるもの（例：具体例）。
形態１２：不定語となる漢字を含むもの（例：濱口）。

未知語形態は、上記で設定された形態以外の形態を追加するものとしてもよいし、上記形態の一部を削除してもよい。また、上記形態の一部を更に細分化した形態としてもよい。例えば、形態４を次の通り細分化してもよい。
形態４−１：英字、記号、数字のみから構成されるもの（例：ＡＰ−１５０Ｐ）。
形態４−２：英字、記号＋カタカナから構成されるもの（例：ＩＰアドレス）。
形態４−３：カタカナ＋英字、記号から構成されるもの（例：テレフォンＮＯ）。

また、形態８を次の通り細分化してもよい。
形態８−１：漢字のみから構成され接頭語、接尾語のつくもの（例：再試験）。
形態８−２：カタカナ＋接尾語から構成されるもの（例：ロ社、フ諸島）。
形態８−３：接頭語＋カタカナから構成されるもの（例：対ソ）。

なお、上述の未知語形態において、不定語とは、その単語のみで本来、固有の意味を有しない単語をいう。例えば、ＥＸ（例を意味する）のような略語、アインシュタインのような人名、濱口の「濱」のようないわゆる固有名漢字等が該当する。また、ここでいう接頭語、接尾語とは、国文法における接頭語、接尾語よりも広い概念である。つまり、名詞として成立するような語、例えば「社」や「諸島」等も接頭語、接尾語の範疇に含まれる。これらの語は、名詞および接頭語、接尾語という複数の品詞をもつものとして辞書に登録されているのである。

上記ピックアップした単語が上記未知語形態に該当する場合には、ＣＰＵ２０は、未知語フラグＦに値１を代入する（ステップＳ３２０）。こうして全単語について未知語を抽出する処理（ステップＳ３００〜Ｓ３２０）が終了した場合には（ステップＳ３２５）、未知語抽出処理ルーチンを一旦終了する。未知語抽出処理を終えた後（図３のステップＳ１１０）、ＣＰＵ２０は未知語品詞推定処理を実行する（図３のステップＳ１１５）。未知語品詞推定処理ルーチンについて図６を用いて説明する。

このルーチンでは、各単語について最初に未知語フラグＦが値１であるか否かを判定する（ステップＳ４００）。フラグＦが値０である場合には、その単語は未知語でないことを意味しているため、品詞の推定は行わない。フラグＦが値１である場合には、以下の手順により品詞判定を行う。

まず、その未知語に固有名漢字が含まれているか否かを判定する（ステップＳ４０５）。固有名漢字とは、「濱口」の「濱」のようにその漢字のみで固有の単語として用いられることはなく、人名、地名等の固有名詞の一部としてのみ使用される漢字をいう。各漢字が固有名漢字に該当するか否かは、辞書に登録されているデータに基づいて判断される。未知語に固有名漢字が使用されている場合には、該未知語の品詞は固有名詞であると判断される（ステップＳ４１０）。先に説明した形態１２がここに該当し得る。なお、固有名漢字をさらに、人名のみに用いられる人名漢字、地名のみに用いられる地名漢字等に分類し、固有名詞を細分化した人名、地名等のグループで品詞を判定するものとしてもよい。

未知語に固有名漢字が含まれていない場合は、ＣＰＵ２０は、該未知語に後接する単語（以下、後接語とよぶ）を抽出し（ステップＳ４１５）、該後接語が仮名文字「な」であるか否かを判定する（ステップＳ４２０）。後接語が仮名文字「な」である場合には、ＣＰＵ２０は、その後接語の直後の後接語をさらに抽出し（ステップＳ４２５）、該後接語が体言であるか否かを判定する（ステップＳ４３０）。体言とは、名詞、代名詞、数詞等をいう。ここでいう名詞には、人名等、名詞を細分化して定義した種々の品詞も含んでいる。つまり、これらのステップにより、未知語の後に「仮名文字「な」＋体言」なる語が連接しているか否かを判定しているのである。かかる語が連接している場合には、該未知語の品詞は形容動詞であると判定する（ステップＳ４３５）。なお、国文法における形容動詞には種々の定義が存在するが、本実施例においては、いわゆる連体形の活用語尾が「な」であるものは全て形容動詞であると定義している。上述の形態３ないし形態８がここに相当し得る。

なお、本実施例では形容動詞の活用語尾である「な」を一種の付属語として捕らえており、形容動詞の語幹に相当する部分が未知語として抽出されるため、上記ステップ（Ｓ４２０、Ｓ４３０）により形容動詞であるか否かの判定を行うことができる。これに対し、形態素解析の結果、形容動詞の語尾「な」も含めて未知語として抽出するような未知語抽出手段が用いられているような場合には、ステップＳ４２０を未知語の語尾が仮名文字「な」であるか否かにより形容動詞であると判定する手段としてもよい。また、本実施例では、仮名文字「な」の後に体言が後接するか否かも含めて品詞判定を行っている（ステップＳ４３０）が、このステップを省略し、仮名文字「な」が後接するか否か（ステップＳ４２０）のみによって品詞判定を行うものとしてもよい。

未知語に仮名文字「な」が連接していない場合、または仮名文字「な」の後に体言が連接していない場合は、ステップＳ４１５で抽出した後接語が「する」を含む動詞であるか否かを判定し（ステップＳ４４０）、かかる動詞に該当する場合には、未知語の品詞をサ変名詞と判定する（ステップＳ４４５）。上述の形態１ないし形態８がここに相当し得る。サ変名詞とは、名詞の一種として定義された品詞であり、例えば「増加（する）」等、サ行変格動詞と結合し得る名詞を意味する。なお、上述の「する」を含む動詞とはいわゆるサ行変格活用動詞（例えば、「する」、「決する」等）一般を意味し、後接語がかかる動詞に該当するか否かは、その活用形（「せ」、「し」、「すれ」、「せよ」等）も含めて判断される。

後接語が「する」を含む動詞でない場合には、次のステップにおいて、後接語が「ずる」を含む動詞であるか否かを判定し（ステップＳ４５０）、かかる動詞に該当する場合には、未知語の品詞をザサ変名詞と判定する（ステップＳ４５５）。上述の形態１ないし形態８がここに相当し得る。ザサ変名詞とは、名詞の一種として定義された品詞であり、例えば「格別（重んずる）」等、サ行変格活用動詞のうち語尾が濁る動詞（以下、ザ行変格活用動詞とよぶ）およびサ行変格活用動詞と結合し得る名詞を意味する。なお、上述の「ずる」を含む動詞とはザ行変格活用動詞（例えば、「信ずる」、「重んずる」等）一般を意味し、後接語がかかる動詞に該当するか否かは、その活用形（「ぜ」、「じ」、「ずれ」、「ぜよ」等）も含めて判断される。

後接語が「ずる」を含む動詞でない場合には、次のステップにおいて、後接語が接尾語に該当するか否かを判定する（ステップＳ４６０）。接尾語に該当しない場合には、未知語の直前に連接する語（以下、前接語とよぶ）を抽出し（ステップＳ４６５）、該前接語が接頭語に該当するか否かを判定する（ステップＳ４７０）。後接語が接尾語である場合または前接語が接頭語である場合には、接頭語または接尾語（以下、両者を合わせて接辞語とよぶ）の結合属性に基づいて、未知語の品詞を判定する（ステップＳ４７５）。上述の全ての形態がここに相当し得る。接辞語にはそれぞれ地名、人名その他細分化されたいずれの名詞と結合しやすいかをあらわす結合属性データが合わせて辞書に登録されている。例えば、接尾語「町」「市」等は、地名と結合し得る結合属性データを有しており、かかる接尾語が連接する未知語は地名であると判定される。このように、名詞を地名、人名等の更に細分化し、この範囲で品詞を判定するのである。

本実施例においては、接辞語の結合属性と未知語の品詞との関係として、次の６態様が設定されている。
態様１：接辞語が地名と結合し得る属性である場合（例：町、市、大字、丁目等）、未知語の品詞は「地名」とする。
態様２：接辞語が人名と結合し得る属性である場合（例：氏、課長、ミスター等）、未知語の品詞は「人名」とする。
態様３：接辞語が社名と結合し得る属性である場合（例：社、会社、洋行、銀行、製作所、カンパニー、鉄道等）、未知語の品詞は「社名」とする。
態様４：接辞語が組織名と結合し得る属性である場合（例：課、事業部等）、未知語の品詞は「組織名」とする。
態様５：接辞語が建物名と結合し得る属性である場合（例：ビル、寺、マンション、駅等）、未知語の品詞は「建物名」とする。
態様６：接辞語が商品名と結合し得る属性である場合（例：ジュース、饅頭等）、未知語の品詞は「商品名」とする。

接辞語の結合属性と未知語の品詞との関係は、これらに限定されるものではなく、更にいくつかの関係を設定してもよい。また、上記関係のうち、いくつかを削除してもよい。なお、本実施例における接辞語には、本来は名詞であるものも含まれている。これらの語は、名詞と接辞語の２つの品詞を有していることになる。

後接語が接尾語である場合および前接語が接頭語である場合のいずれにも該当しない場合には、未知語の品詞は名詞であると判定する（ステップＳ４８０）。以上の手順により、未知語について順に品詞を判定し、全ての未知語について判定が終了した場合には（ステップＳ４８５）、ＣＰＵ２０は、未知語品詞推定処理ルーチンを一旦終了する。

未知語品詞推定処理（図３のステップＳ１１５）が終了すると、次のステップにおいて、ＣＰＵ２０は、見出し作成処理（図３のステップＳ１２０）を実行する。見出し作成処理とは、未知語に対し、辞書に登録する読みを作成する処理である。見出し作成処理ルーチンの流れを図７に示す。

見出し作成処理ルーチンが開始されると、ＣＰＵ２０は、各単語について未知語フラグＦが値１であるか否かを判定する（ステップＳ５００）。フラグＦが値１でない場合には、未知語ではないため、次の語の処理に移る。

フラグＦが値１である場合には、次に該未知語が漢字からなる語か否かを判定する（ステップＳ５０５）。漢字からなる語とは、未知語が漢字のみからなる場合および漢字を一部に含む場合の双方を含んでいる。

未知語が漢字からなる語でない場合には、該未知語を構成する文字を１文字ずつ仮名表記にすることにより、未知語の仮名表記を生成する（ステップＳ５１０）。具体的には、カタカナは平仮名に変換し、英字、数字はその読みを平仮名で表す。従って、例えば、「アインシュタイン」なる未知語の仮名表記は「あいんしゅたいん」となり、「ＥＸ」なる未知語の仮名表記は「いーえっくす」となる。なお、未知語の一部が辞書に存在する場合には、その読みを利用して仮名表記を生成するものとしてもよい。例えば、「ＴＯＰＳＡＬＥＳ」なる未知語については、「とっぷせーるす」なる表記を生成するものとしてもよい。また、複数の読みが可能な場合には、全ての読みを生成するものとしてもよい。例えば、「ＴＯＰＳＡＬＥＳ」なる未知語については、先に挙げた読みの他、１文字ずつアルファベット読みをあてた表記「てぃーおーぴー・・・」なる読みを生成するものとしてもよい。

未知語が漢字からなる語である場合には、該漢字の読みの組み合わせに基づいて未知語の読みを生成する（ステップＳ５１５）。図７のステップＳ５１５では、漢字２文字からなる未知語について可能な読みを示した。つまり、このステップでは「音読み−音読み」、「訓読み−訓読み」、「音読み−訓読み」、「訓読み−音読み」の４つの読みを生成することになる。漢字３文字からなる未知語の場合には、更に組み合わせが増えることになる。

この場合においても、未知語の一部が辞書に存在する場合には、その読みを利用するものとしてもよい。例えば、「誕生日」が未知語として抽出され、「誕生（たんじょう）」が辞書に存在する場合には、「日」の部分のみを種々の読みに変更し、「たんじょうび」、「たんじょうひ」、「たんじょうにち」という読みを生成するものとしてもよい。また、漢字のみからなる単語については、「音読み−訓読み」、「訓読み−音読み」からなる読みを生じることは稀であるため、「音読み−音読み」、「訓読み−訓読み」からなる読みだけを生成するものとしてもよい。これらの手段を採れば、漢字の文字数が多い未知語について、現実にありえない不適切な読みを多数生成するおそれが低くなり、辞書に当てられるメモリを有効に活用することができる。

以上の手順により、未知語の読みを生成し、全ての未知語について読みの生成が終了した場合（ステップＳ５２０）には、見出し作成処理ルーチンを一旦終了する。見出し作成処理ルーチンが終了した後（図３のステップＳ１２０）、ＣＰＵ２０は、それぞれの未知語を、仮名漢字変換辞書および形態素解析辞書に登録する（ステップＳ１２５、Ｓ１３０）。これらの登録順序は、いずれが先であっても構わないし、同時に行うものとしてもよい。両者への登録を同時に行う場合としては、両者のデータが一部重複している場合が挙げられる。つまり、辞書に登録される実質的なデータ（未知語、読み等）は両辞書で共通のものとしておいて、そこに添付されるインデックスデータの使い分けにより、仮名漢字変換辞書として使用したり、形態素解析辞書として使用したりする場合である。

ここで、仮名漢字変換辞書とは、仮名漢字変換において使用される辞書をいい、入力された仮名文字列をインデックスとして仮名漢字混じり（英字、数字、記号混じりも含まれる）の表記データを対応させるための辞書をいう。従って、先に説明した見出し作成処理（ステップＳ１２０）において未知語の読みが複数作成されている場合には、仮名漢字変換辞書には、それら全ての読みをインデックスとして未知語が対応できるように未知語が登録される。

一方、形態素解析辞書とは、先に説明した形態素解析（ステップＳ１０５）において参照される辞書である。従って、形態素解析辞書には、入力された文字列が仮名漢字混じりである場合にも該文字列をインデックスとして単語の品詞等が参照できるような形式で、未知語が登録される。なお、図１に示した自立語辞書６２および付属語辞書６４は、これらとは異なる観点で辞書を区分したものであり、仮名漢字変換辞書および形態素解析辞書のそれぞれに、自立語辞書６２および付属語辞書６４が存在している。

上記各辞書に登録される具体的なデータとしては、仮名漢字混じりで表記された未知語データ、該未知語の品詞データ、該未知語の読みデータが主なデータである。この他、未知語の登録日や使用頻度等の管理情報を一緒に登録するものとしてもよい。

以上で説明した未知語登録装置によれば、第１に辞書への未知語の自動登録が可能となるため、使用者が自ら辞書に単語を追加登録しなくても、辞書データを豊富にすることができる。第２に未知語の品詞を適切に登録することが可能となる。つまり、使用者が未知語の品詞を入力する場合には、名詞等の特定の品詞に集中しがちであるが、上記未知語登録装置では未知語の品詞を推定できるため、適切な品詞を登録することができる。第３に未知語について可能な読みを複数推定し、全ての読みを登録することができる。この結果、未知語が不適切な読みで辞書に登録され、後の仮名漢字変換等で参照できないような事態が生じるおそれがなくなる。以上の種々の効果により、本実施例の未知語登録装置によれば、形態素解析ひいては仮名漢字変換の精度やＯＣＲ装置における識字率を向上することができる。

なお、上述の未知語登録装置における未知語の形態として、上記１２の形態に加え、次の形態を含むものとしてもよい。
形態１３：２文節からなる語が辞書の１文節に相当するもの（例：飛びこむ）。
例えば「飛びこむ」は「飛ぶ」＋「こむ」なる結合であるように、上記形態は、それぞれ辞書に登録された単語の結合である。従って、かかる形態からなる未知語の品詞は、結合された各語の品詞を有するものとすればよい。つまり、「飛びこむ」であれば、結合された「飛ぶ」＋「こむ」の双方ともに動詞であるため、未知語の品詞は動詞となる。上記形態では例えば、通常得られる「飛び込む」なる表記の他に、「飛びこむ」なる表記も考えられることから、両者を一つの未知語として辞書に登録すれば、所望の表記を得ることができるようになる。

もっとも、上記形態１３について、「飛びこむ」なる表記は「飛び込む」なる表記の派生表記として捕らえることができるため、未知語としての登録ではなく、別途「飛び込む」と関連付けた派生表記としての登録方法を用いるものとしてもよい。

（３）未知語登録装置としての記録媒体
先に説明した未知語登録装置は、図３から図７に示した種々の処理を図２に示したコンピュータ（特にＣＰＵ２０）が実行することにより実現したものであるため、これらの機能を実現するプログラムを記録した記録媒体によっても、未知語登録装置を実現することができる。このような記録媒体としては、図３に示した未知語自動登録ルーチン全てを記録した記録媒体であってもよいし、未知語品詞推定処理ルーチン（図６）のみを記録した記録媒体であってもよい。また、上記プログラムのうち、入出力に関する機能等の基本的な機能は、コンピュータに別途備えられている基本ソフトウェア（いわゆるＢＩＯＳ等）を用いるものとしてもよい。

（４）未知語登録装置を利用した仮名漢字変換装置
次に、上記未知語登録装置を利用した仮名漢字変換装置としての実施例について説明する。該仮名漢字変換装置の構成は、図１および図２に示した日本語入力装置の構成と同様である。また、仮名漢字変換装置により参照される辞書には、先に説明した未知語自動登録ルーチン（図３）により、未知語が自動的に登録されている。但し、辞書に未知語が追加登録される際には、管理データとして、登録される単語が未知語であることを示すインデックスと、未知語の登録年月日が付されている。後で詳説するが、図９に示した辞書データに含まれる「＊」なるインデックスおよび「１９９７０８１８」なるデータが該当する。仮名漢字変換装置は、ＣＰＵ２０が図８に示す仮名漢字変換処理ルーチンを実行することにより仮名漢字変換を行う。なお、仮名漢字変換には、入力された平仮名文字列から仮名漢字混じり表記への変換のみならず、カタカナ文字列や英字、数字混じりの文字列等、入力された平仮名文字列と同義の種々の表記に変換することを含めるものとしてもよい。

図８に示した仮名漢字変換処理ルーチンの流れ、および図９に示した具体例により、仮名漢字変換処理について説明する。仮名漢字変換処理ルーチンが実行されると、ＣＰＵ２０は、仮名文字列を読み込む（ステップＳ６００）。図９の具体例によれば、入力画面（ａ）および入力画面（ｂ）に示された通り、平仮名文字列である「たんご」または「ふくご」を読み込む。

次に、ＣＰＵ２０は辞書を参照して、該仮名文字列に該当する仮名漢字混じり表記を辞書データから読み込む（ステップＳ６０５）。図９に基づいて説明すれば、「たんご」なる文字列に対しては、「単語」なる仮名漢字混じり表記が得られ、「ふくご」なる文字列に対しては、「複語」なる仮名漢字混じり表記が得られる。なお、「複語」とは「単語」に対して設けられた造語であり、使用者により未知語登録されている語である。従って、「ふくご」に対しては、辞書データに「＊」なる文字が付されている。この記号は、「ふくご」が未知語として登録された単語であることを示すインデックスである。予め辞書に備えられている単語（以下、既知語という）である「たんご」には、このような記号は付されていない。また、「ふくご」には「１９９７０８１８」なる文字列データも添えられている。これは、登録日、即ち「ふくご」が「１９９７年８月１８日」に登録されたことを意味するデータである。既知語である「たんご」については登録日データは「００００００００」なる文字列となっている。

こうして、仮名漢字混じり標記を得た後、ＣＰＵ２０は、上記インデックス「＊」または登録日データにより、参照した単語が未知語であるか否かを判定する（ステップＳ６１０）。なお、上述の管理データは未知語と既知語とを区別することができるものであればよく、上記のインデックス等の他、品詞データの一つとして「未知語」なる品詞データをもつものとしてもよいし、該データが参照された回数データに基づいて判断するものとしてもよい。

ＣＰＵ２０は、単語が既知語である場合には既知語表示をし（ステップＳ６１５）、未知語である場合には未知語表示をする（ステップＳ６２０）。図９に基づいて説明すれば、既知語である「単語」については、出力画面（ａ）に示す通り「単語」なる語がそのまま表示される。一方、未知語である「複語」については、出力画面（ｂ）に示す通り「複語」なる語が枠囲みを伴って表示される。かかる表示により、使用者は「複語」が未知語として登録された語であることを認識することができる。

なお、未知語表示（ステップＳ６２０）としては、未知語と既知語とを明確に識別し得る表示であればよい。例えば、未知語を他の文字列と色を変えて表示したり、フォントや文字サイズ等を変えて表示したり、未知語部分にはアンダーラインやハッチングを付して表示するなど、種々の態様による表示が考えられる。また、仮名文字列からの変換候補が複数表示される場合においても、変換候補中に未知語が含まれている場合には、他の候補と明確に識別し得る状態で表示されれるものとしてもよい。

かかる仮名漢字変換装置によれば、未知語表示に基づき、該仮名漢字変換装置の使用者は辞書に登録された未知語の内容を認識することができ、使用者の意図しない形で辞書に登録された単語を発見することができる。この結果、辞書の維持管理を容易に行うことが可能となる。

以上、本発明の実施例について説明してきたが、本発明はこれらに限定されるものではなく、その要旨を逸脱しない範囲で、種々の形態による実施が可能である。例えば、上記実施例においては、辞書に存在しない未知語を新たに追加登録する場合について説明しているが、辞書に存在する単語について未知語品詞推定処理（図６）や見出し作成処理（図７）を施すことにより、その品詞または読みの修正を行うものとしてもよい。

本実施例の未知語登録装置を含む日本語入力装置の制御ロジックを示すブロック図である。日本語入力装置のハードウェアを示すブロック図である。未知語自動登録ルーチンの流れを示すフローチャートである。形態素解析ルーチンの流れを示すフローチャートである。未知語抽出処理ルーチンの流れを示すフローチャートである。未知語品詞推定処理ルーチンの流れを示すフローチャートである。見出し語作成処理ルーチンの流れを示すフローチャートである。仮名漢字変換処理ルーチンの流れを示すフローチャートである。未知語表示例を示す説明図である。

符号の説明

２０・・・ＣＰＵ
２２・・・ＲＯＭ
２４・・・ＲＡＭ
２６・・・ハードディスク
２７・・・ＣＤ−ＲＯＭドライブ
２８・・・入出力ポート
３０・・・キーボード
３２・・・ＣＲＴディスプレイ
３４・・・プリンタ
３６・・・スキャナ
３８・・・バス
４０・・・入力部
４２・・・出力部
４４・・・表示部
４６・・・入出力制御部
４８・・・文字受取部
５０・・・形態素解析部
５２・・・形態素出力部
５４・・・文節候補格納部
５６・・・未知語抽出部
５８・・・単語候補格納部
６０・・・未知語登録部
６２・・・自立語辞書
６４・・・付属語辞書
６６・・・未知語削除部

Claims

品詞データを含む辞書を備え、日本語文字列を入力する日本語入力装置において参照される前記辞書に存在しない未知語を、該辞書に自動登録する未知語登録装置であって、
入力された日本語文字列を、前記辞書を参照して文節に分かち書きする手段と、
該分かち書き結果に基づいて、前記辞書に存在しない未知語を、前記入力された日本語文字列から抽出する未知語抽出手段と、
該未知語に前接または後接する語である連接語を、前記入力された日本語文字列から少なくとも一つ抽出する連接語抽出手段と、
該連接語の構成、または前記辞書に記憶されている前記連接語の言語上の属性を示すデータに基づいて該未知語の品詞を判定する品詞判定手段と、
前記判定された品詞を含めて前記未知語に関するデータを前記辞書に追加登録する追加登録手段とを備える未知語登録装置。
請求項１の未知語登録装置であって、
前記品詞判定手段は、
該未知語の直後に後接する前記連接語が、「する」を含む動詞またはその活用形である場合には、該未知語は該動詞と結合可能な名詞であるサ変名詞と判定する手段である未知語登録装置。
請求項１の未知語登録装置であって、
前記品詞判定手段は、
該未知語の直後に後接する前記連接語の構成が、仮名文字「な」である場合には、該未知語は形容動詞であると判定する手段である未知語登録装置。
請求項１の未知語登録装置であって、
前記品詞判定手段は、
該未知語の直後に後接する第１の連接語の構成が、仮名文字「な」であり、該第１の連接語の直後に後接する第２の連接語について前記辞書に登録されている品詞が体言に含まれる品詞である場合には、該未知語は形容動詞であると判定する手段である未知語登録装置。
請求項１の未知語登録装置であって、
前記品詞判定手段は、
前記連接語の品詞が接頭語または接尾語である場合には、該接頭語または接尾語に関して前記辞書に用意されたデータのうち、該接頭語または接尾語が地名、人名その他細分化されたいずれの名詞と結合しやすいかをあらわす結合属性データに応じて、該未知語は前記細分化されたいずれかの名詞であると判定する手段である未知語登録装置。
品詞データを含む辞書を備え、日本語文字列を入力する日本語入力装置において参照される辞書に存在しない未知語を、該辞書に自動登録する未知語登録装置であって、
入力された日本語文字列を、前記辞書を参照して文節に分かち書きする手段と、
該分かち書き結果に基づいて、前記辞書に存在しない未知語を、入力された日本語文字列から抽出する未知語抽出手段と、
固有名詞にのみ用いられるものとして前記辞書に登録された固有名漢字が、該未知語の中に含まれているか否かを判定する固有名漢字判定手段と、
前記未知語の中に前記固有名漢字が含まれている場合には、該未知語は固有名詞であると判定する品詞判定手段と、
前記判定された品詞を含めて前記未知語に関するデータを前記辞書に追加登録する追加登録手段とを備える未知語登録装置。
辞書を参照しつつ入力された仮名文字列を仮名漢字混じり表記に仮名漢字変換する仮名漢字変換装置であって、
予め用意された辞書に存在しない未知語に関するデータを、所定の管理データを含んだ未知語データとして、該辞書に追加登録する未知語登録手段と、
仮名漢字変換において前記未知語データが参照された場合には、前記管理データに基づいて該未知語を他の文字列と識別可能な方法で表示する未知語表示手段とを備える仮名漢字変換装置。
品詞データを含む辞書を備え、日本語文字列を入力する日本語入力装置において参照される前記辞書に存在しない未知語を、コンピュータにより該辞書に自動登録させる未知語登録方法であって、
入力された日本語文字列を、前記辞書を参照して文節に分かち書きさせ、
該分かち書き結果に基づいて、前記辞書に存在しない未知語を、入力された日本語文字列から抽出させ、
該未知語に前接または後接する語である連接語を、前記入力された日本語文字列から少なくとも一つ抽出させ、
該連接語の構成、または該連接語に関し前記辞書に記憶されている言語上の属性データに基づいて該未知語の品詞を判定させ、
前記判定された品詞を含めて前記未知語に関するデータを前記辞書に追加登録させる未知語登録方法。
日本語文字列を入力する際に参照される品詞データを含む辞書に存在しない未知語を、該辞書に自動登録する機能をコンピュータにより実現させるプログラムを記録したコンピュータ読みとり可能な記録媒体であって、
入力された日本語文字列を文節に分かち書きし、前記辞書に存在しない語を、前記日本語文字列から抽出することによって得られた未知語を入力する機能と、
該未知語に前接または後接する語である連接語を前記日本語文字列から少なくとも一つ抽出する機能と、
該連接語の構成、または該連接語に関し前記辞書に記憶されている言語上の属性データに基づいて該未知語の品詞を判定する品詞判定機能と、
前記判定された品詞を含めて前記未知語に関するデータを前記辞書に追加登録する機能とをコンピュータにより実現させるプログラムを記録した記録媒体。
請求項９の記録媒体であって、
前記品詞判定機能として、
該未知語の直後に後接する前記連接語が、「する」を含む動詞またはその活用形である場合には、該未知語は該動詞と結合可能な名詞であるサ変名詞と判定する機能をコンピュータにより実現させるプログラムを記録した記録媒体。
請求項９の記録媒体であって、
前記品詞判定機能として、
該未知語の直後に後接する前記連接語の構成が、仮名文字「な」である場合には、該未知語は形容動詞であると判定する機能をコンピュータにより実現させるプログラムを記録した記録媒体。
請求項９の記録媒体であって、
前記品詞判定機能として、
前記連接語の品詞が接頭語または接尾語である場合には、該接頭語または接尾語に関して前記辞書に用意されたデータのうち、該接頭語または接尾語が地名、人名その他細分化されたいずれの名詞と結合しやすいかをあらわす結合属性データに応じて、該未知語は前記細分化されたいずれかの名詞であると判定する機能をコンピュータにより実現させるプログラムを記録した記録媒体。
日本語文字列を入力する際に参照される品詞データを含む辞書に存在しない未知語を、該辞書に自動登録する機能をコンピュータにより実現させるプログラムを記録したコンピュータ読みとり可能な記録媒体であって、
入力された日本語文字列を文節に分かち書きし、前記辞書に存在しない語を、前記日本語文字列から抽出することによって得られた未知語を入力する機能と、
人名にのみ用いられるものとして前記辞書に登録された人名漢字が、該未知語の中に含まれているか否かを判定する機能と、
固有名詞にのみ用いられるものとして前記辞書に登録された固有名漢字が、該未知語の中に含まれているか否かを判定する機能と、
前記判定された品詞を含めて前記未知語に関するデータを前記辞書に追加登録する機能とをコンピュータにより実現させるプログラムを記録した記録媒体。