JP2004265440A - 未知語登録装置および方法並びに記録媒体 - Google Patents

未知語登録装置および方法並びに記録媒体 Download PDF

Info

Publication number
JP2004265440A
JP2004265440A JP2004132643A JP2004132643A JP2004265440A JP 2004265440 A JP2004265440 A JP 2004265440A JP 2004132643 A JP2004132643 A JP 2004132643A JP 2004132643 A JP2004132643 A JP 2004132643A JP 2004265440 A JP2004265440 A JP 2004265440A
Authority
JP
Japan
Prior art keywords
word
unknown word
dictionary
speech
unknown
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004132643A
Other languages
English (en)
Inventor
Yasuo Koyama
泰男 小山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
A I Soft Inc
Original Assignee
A I Soft Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by A I Soft Inc filed Critical A I Soft Inc
Priority to JP2004132643A priority Critical patent/JP2004265440A/ja
Publication of JP2004265440A publication Critical patent/JP2004265440A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】 辞書データへの未知語自動登録装置では、仮名、漢字、英字等が混じって入力された日本語の文章からの未知語の抽出、および該未知語の品詞の推定をすることができなかった。
【解決手段】 コンピュータにより、入力された日本語文字列を辞書を参照しつつ形態素解析して文節に分かち書きし、該結果に基づいて前記辞書に存在しない未知語を、前記日本語文字列から抽出する。また、該未知語に前接または後接する語である連接語を、前記入力された日本語文字列から少なくとも一つ抽出する。次に、未知語に含まれる文字構成に基づいて品詞を判定する。また、連接語の構成、又は連接語の言語的属性(品詞および接頭語・接尾語の意味等)によっても該未知語の品詞を判定する。さらに未知語の全ての読みを推定した上で、判定された品詞および全ての読みを含めて未知語に関するデータを辞書に追加登録する。
【選択図】 図1

Description

本発明は、日本語入力装置において参照される辞書に存在しない未知語を、その品詞を推定した上で、該辞書に自動登録する技術に関する。
従来、日本語入力装置の一つとして、キーボードなどから入力された仮名文字列を所望の仮名漢字混じり文に変換する種々の仮名漢字変換装置が提案されている。仮名漢字変換装置は、予め用意された辞書を参照することにより、入力された仮名文字列に対応する漢字表記を検索し、仮名文字列を各表記に変換する装置である。
かかる仮名漢字変換装置で日本語を正確に入力するためには、前記辞書に豊富な単語が登録されていることが重要となるが、実際に使用される全ての単語を登録した辞書を作成することは非常に困難である。仮名漢字変換装置の使用者が用いる用語はその使用者が入力する内容によってまちまちであり、また、日常生活においても多種多様な単語が新語として作り出されているからである。更に、住所、氏名や商品名等まで辞書に登録しようとすることは、ほとんど不可能に近い。かかる課題を解決しつつ、使用者にとっての利便性を確保すべく、多くの仮名漢字変換装置は予め基本的な単語のみを登録した辞書を用意しておき、該辞書に存在しない単語については、使用者が前記辞書に新たな単語、即ち未知語を追加登録できる機能を設けている。また、かかる未知語を自動的に検出し、前記辞書に自動登録する装置も提案されている(特開平6−12453等)。
上記仮名漢字変換装置では、入力された日本語文を使用者が望んだ表記に正確に変換するために、文節分かち書きの処理を工夫している。文節分かち書きの処理とは、例えば「くるまではこをはこぶ」と入力された仮名文字列を、辞書に登録された各単語の品詞情報等を参照することで、「くるまで/はこを/はこぶ」と解析する処理をいう(例えば、特開平7−295975等)。文節分かち書きの精度を向上するためには、辞書に前記未知語を追加登録する際に、その品詞も合わせて登録することが必要となる。
一方、日本語入力装置として、最近、日本語の文章をスキャナ等で取り込んだイメージ情報から、そこに記載されている文字を認識し、文字データに変換する装置、いわゆるOCR装置も普及している。かかる装置では、イメージ情報から文字データへの変換精度、つまり識字率を向上するために、一文字単位での変換のみならず、入力された日本語文字列を前記辞書を参照して文節分かち書きし、単語単位で適切な文字への変換を行うことがなされている。従って、このような機能を有するOCR装置における識字率を向上するためには、充実した辞書を備えることが重要となり、仮名漢字変換装置の場合と同様、未知語を辞書に追加登録することが重要となる。この際においても、該未知語の品詞も合わせて登録することが必要となる。
しかし、上記仮名漢字変換装置における未知語の登録機能では、品詞を自動推定することはできなかった。つまり、使用者が未知語の品詞を判定し、品詞リスト中から選択する方法等によって入力していた。このため、辞書における品詞情報の重要性を理解した上で、使用者が適切な品詞を選択することは困難であった。未知語の品詞が適切に登録されない場合には、文節分かち書きの精度、ひいては仮名漢字変換の精度および識字率が向上できなかった。
また、従来より存在する未知語の自動登録機能は、仮名漢字変換装置を対象としたものであり、OCR装置のように仮名、漢字、英字等が混じって入力された日本語の文章から未知語を抽出することはできなかった。従って、OCR装置では、識字率向上のために使用者が辞書に未知語を登録する必要があった。
本発明は上記課題の少なくとも一部を解決するためになされ、仮名、漢字、英字等が混じって入力された日本語の文章から未知語を抽出し、該未知語の品詞を推定した上で辞書に自動登録する技術を提供することを目的とする。
上記課題の少なくとも一部を解決するために、本発明では次の構成を採った。
本発明の第1の未知語登録装置は、
品詞データを含む辞書を備え、日本語文字列を入力する日本語入力装置において参照される前記辞書に存在しない未知語を、該辞書に自動登録する未知語登録装置であって、
入力された日本語文字列を、前記辞書を参照して文節に分かち書きする手段と、
該分かち書き結果に基づいて、前記辞書に存在しない未知語を、前記入力された日本語文字列から抽出する未知語抽出手段と、
該未知語に前接または後接する語である連接語を、前記入力された日本語文字列から少なくとも一つ抽出する連接語抽出手段と、
該連接語の構成、または前記辞書に記憶されている前記連接語の言語上の属性を示すデータに基づいて該未知語の品詞を判定する品詞判定手段と、
前記判定された品詞を含めて前記未知語に関するデータを前記辞書に追加登録する追加登録手段とを備えることを要旨とする。
また、本発明の第1の未知語登録方法は、
品詞データを含む辞書を備え、日本語文字列を入力する日本語入力装置において参照される前記辞書に存在しない未知語を、コンピュータにより該辞書に自動登録させる未知語登録方法であって、
入力された日本語文字列を、前記辞書を参照して文節に分かち書きさせ、
該分かち書き結果に基づいて、前記辞書に存在しない未知語を、入力された日本語文字列から抽出させ、
該未知語に前接または後接する語である連接語を、前記入力された日本語文字列から少なくとも一つ抽出させ、
該連接語の構成、または該連接語に関し前記辞書に記憶されている言語上の属性データに基づいて該未知語の品詞を判定させ、
前記判定された品詞を含めて前記未知語に関するデータを前記辞書に追加登録させることを要旨とする。
上記未知語登録装置または未知語登録方法では、入力された日本語文字列を辞書を参照して文節に分かち書きし、その結果に基づいて、前記辞書に存在しない未知語を入力された日本語文字列から抽出する。また、該未知語に前接または後接する語(以下、連接語とよぶ)を、前記入力された日本語文字列から少なくとも一つ抽出する。こうして抽出された連接語の構成、または該連接語に関し前記辞書に記憶されている言語上の属性データに基づいて該未知語の品詞を判定し、その品詞を含めて未知語に関するデータを辞書に追加登録する。従って、上記未知語登録装置または未知語登録方法によれば、辞書への未知語の自動登録が品詞も含めて可能となり、ひいては日本語入力装置における仮名漢字変換の精度や識字率の向上を図ることができる。
上記未知語登録装置、または未知語登録方法は、仮名文字列のみならず、仮名、漢字、英字等が混じった文章であっても適用できる。なお、本明細書における品詞は原則的にはいわゆる国文法における品詞(名詞、形容詞等)と同じ意味であるが、文節分かち書きや仮名漢字変換の精度および識字率を向上する目的に使用される特殊性に鑑み、国文法における品詞よりも細分化された品詞を用いる場合もある。かかる場合には、品詞の定義を合わせて記載する。
ここで、連接語の構成とは、連接語に含まれる文字に注目した構成を意味しており、例えば、連接語がある特定の仮名文字により構成されていることに基づいて品詞の推定をする場合等が含まれる。また、連接語の言語上の属性データとは、連接語自体の品詞や、該連接語がどのような品詞の単語と結合しやすいかという性質等をいう。連接語の言語上の属性データは、辞書データに登録されているデータを用いるものとしてもよいし、未知語登録装置において個別に用意するものとしてもよい。具体的な品詞判定手段としては、次の態様が考えられる。
第1の態様による前記品詞判定手段は、
該未知語の直後に後接する前記連接語が、「する」を含む動詞またはその活用形である場合には、該未知語は該動詞と結合可能な名詞であるサ変名詞と判定する手段である。
第2の態様による前記品詞判定手段は、
該未知語の直後に後接する前記連接語の構成が、仮名文字「な」である場合には、該未知語は形容動詞であると判定する手段である。
第3の態様による前記品詞判定手段は、
該未知語の直後に後接する第1の連接語の構成が、仮名文字「な」であり、該第1の連接語の直後に後接する第2の連接語について前記辞書に登録されている品詞が体言に含まれる品詞である場合には、該未知語は形容動詞であると判定する手段である。
第4の態様による前記品詞判定手段は、
前記連接語の品詞が接頭語または接尾語である場合には、該接頭語または接尾語に関して前記辞書に用意されたデータのうち、該接頭語または接尾語が地名、人名その他細分化されたいずれの名詞と結合しやすいかをあらわす結合属性データに応じて、該未知語は前記細分化されたいずれかの名詞であると判定する手段である。
前記第1の態様における、「する」を含む動詞とはいわゆるサ行変格活用動詞(例えば、「する」、「決する」等)であり、その活用形とは、いわゆるサ行変格活用による活用形(「せ」、「し」、「すれ」、「せよ」等)である。また、サ行変格活用動詞の一つとして、「ずる」を含む動詞(例えば、「信ずる」等)およびその活用形(「ぜ」、「じ」、「ずれ」、「ぜよ」等)(かかる動詞を以下、「ザ行変格活用動詞」とよぶ)を含むものとしてもよい。なお、第1の態様における「サ変名詞」とは、名詞を細分化して定義した品詞の一つであり、サ行変格活用動詞と結合可能な名詞、即ち、該名詞の後にサ行変格活用動詞が結合し得る名詞をいう。また、ザ行変格活用動詞も含めて品詞判定を行う場合には、該動詞と結合可能な名詞をザサ変名詞と定義して登録するものとしてもよい。
前記第2の態様においては、該未知語の直後に後接する連接語の構成が、仮名文字「な」から構成されている場合には、形容動詞であると判定する。形容動詞については、国文法上、種々の定義がなされているが、本明細書では、いわゆる連体形の活用語尾が「な」であり、終止形の活用語尾が「だ」であるものは、全て形容動詞であると定義する。従って、形容動詞の品詞判定をより確実にするためには、第3の態様として示した通り、未知語の直後に後接する第1の連接語「な」のみならず、その直後に後接する第2の連接語が名詞、代名詞または数詞等の体言に含まれる品詞であるという条件も合わせて判定することが望ましい。
なお、上記手段による品詞判定は、上記未知語登録装置の未知語抽出手段が、形容動詞の語幹部分を未知語として抽出してくる場合に有効となるものである。一方、形容動詞の語尾「な」も含めて未知語として抽出するような未知語抽出手段が用いられているような場合には、未知語の語尾が仮名文字「な」である場合により形容動詞であると判定する手段としてもよい。
第4の態様では、接頭語または接尾語(以下、両者を合わせて接辞語とよぶ)の結合属性に基づいて、未知語の品詞を判定する。国文法においては、接辞語は単語の一部を構成する要素として扱われ品詞としては扱われないが、本明細書においては、独立した品詞として扱うものとする。また、独立した名詞であっても接辞語になり得る単語については、接辞語としても扱うものとする。接辞語にはそれぞれ地名、人名その他細分化されたいずれの名詞と結合しやすいかをあらわす結合属性データが合わせて辞書に登録されている。例えば、接尾語「町」「市」等は、地名と結合しやすい結合属性データを有していることになる。従って、かかる接尾語が連接する未知語は地名であると判定される。このように第4の態様では、名詞を地名、人名等の更に細分化し、この範囲で品詞を判定するのである。かかるグループとしては、例えば、地名、人名、会社名、組織名、建物名、商品名等を挙げることができる。
本発明の第2の未知語登録装置は、
品詞データを含む辞書を備え、日本語文字列を入力する日本語入力装置において参照される前記辞書に存在しない未知語を、該辞書に自動登録する未知語登録装置であって、
入力された日本語文字列を、前記辞書を参照して文節に分かち書きする手段と、
該分かち書き結果に基づいて、前記辞書に存在しない未知語を、入力された日本語文字列から抽出する未知語抽出手段と、
固有名詞にのみ用いられるものとして前記辞書に登録された固有名漢字が、該未知語の中に含まれているか否かを判定する固有名漢字判定手段と、
前記未知語の中に前記固有名漢字が含まれている場合には、該未知語は固有名詞であると判定する品詞判定手段と、
前記判定された品詞を含めて前記未知語に関するデータを前記辞書に追加登録する追加登録手段とを備えることを要旨とする。
かかる未知語登録装置によれば、入力された日本語文字列を辞書を参照して文節に分かち書きし、その結果に基づいて、前記辞書に存在しない未知語を入力された日本語文字列から抽出する。こうして抽出された未知語について、固有名漢字が用いられているか否かを判定し、固有名漢字が含まれている場合には、該未知語は固有名詞であると判定し、その品詞を含めて未知語に関するデータを辞書に追加登録する。固有名詞を人名、地名、社名、商品名等、さらに細分化し、これらのグループで品詞を判定するものとしてもよい。かかる上記未知語登録装置または未知語登録方法によれば、辞書への未知語の自動登録が品詞も含めて可能となり、ひいては日本語入力装置における仮名漢字変換の精度や識字率の向上を図ることができる。固有名漢字であるか否かは辞書に登録されたデータに基づいて判断されるが、未知語登録装置において個別に判断基準を有するものとしてもよい。
以上に説明した本発明は、コンピュータを用いて構成することが可能である。従って、本発明は、以下に示す通り、コンピュータにより種々の機能を実現するためのプログラムを記録した記録媒体としての態様を採ることもできる。
本発明の第1の記録媒体は、
日本語文字列を入力する際に参照される品詞データを含む辞書に存在しない未知語を、該辞書に自動登録する機能をコンピュータにより実現させるプログラムを記録したコンピュータ読みとり可能な記録媒体であって、
入力された日本語文字列を文節に分かち書きし、前記辞書に存在しない語を、前記日本語文字列から抽出することによって得られた未知語を入力する機能と、
該未知語に前接または後接する語である連接語を前記日本語文字列から少なくとも一つ抽出する機能と、
該連接語の構成、または該連接語に関し前記辞書に記憶されている言語上の属性データに基づいて該未知語の品詞を判定する品詞判定機能と、
前記判定された品詞を含めて前記未知語に関するデータを前記辞書に追加登録する機能とをコンピュータにより実現させるプログラムを記録した記録媒体である。
また、この記録媒体は、
前記品詞判定機能として、
該未知語の直後に後接する前記連接語が、動詞「する」またはその活用形である場合には、該未知語は動詞「する」と結合可能な名詞であるサ変名詞と判定する機能をコンピュータにより実現させるプログラムを記録した記録媒体としてもよい。
同じく、この記録媒体は、
前記品詞判定機能として、
該未知語の直後に後接する前記連接語の構成が、仮名文字「な」である場合には、該未知語は形容動詞であると判定する機能をコンピュータにより実現させるプログラムを記録した記録媒体としてもよい。
同じく、この記録媒体は、
前記品詞判定機能として、
前記連接語の品詞が接頭語または接尾語である場合には、該接頭語または接尾語に関して前記辞書に用意されたデータのうち、該接頭語または接尾語が地名、人名その他細分化されたいずれの名詞と結合しやすいかをあらわす結合属性データに応じて、該未知語は前記細分化されたいずれかの名詞であると判定する機能をコンピュータにより実現させるプログラムを記録した記録媒体としてもよい。
本発明の第2の記録媒体は、
日本語文字列を入力する際に参照される品詞データを含む辞書に存在しない未知語を、該辞書に自動登録する機能をコンピュータにより実現させるプログラムを記録したコンピュータ読みとり可能な記録媒体であって、
入力された日本語文字列を文節に分かち書きし、前記辞書に存在しない語を、前記日本語文字列から抽出することによって得られた未知語を入力する機能と、
人名にのみ用いられるものとして前記辞書に登録された人名漢字が、該未知語の中に含まれているか否かを判定する機能と、
固有名詞にのみ用いられるものとして前記辞書に登録された固有名漢字が、該未知語の中に含まれているか否かを判定する機能と、
前記判定された品詞を含めて前記未知語に関するデータを前記辞書に追加登録する機能とをコンピュータにより実現させるプログラムを記録した記録媒体である。
上述の各記録媒体に記録されたプログラムがコンピュータにより実行され、それぞれの機能が実現されると、先に説明した未知語登録装置を構成することができる。
なお、記録媒体としては、フレキシブルディスクやCD−ROM、光磁気ディスク、ICカード、ROMカートリッジ、パンチカード、バーコードなどの符号が印刷された印刷物、コンピュータの内部記憶装置(RAMやROMなどのメモリ)および外部記憶装置等の、コンピュータが読取り可能な種々の媒体を利用できる。また、コンピュータに上記の発明の各工程または各手段の機能を実現させるコンピュータプログラムを通信経路を介して供給する態様、つまりプログラムをネットワーク上のサーバなどに置き、通信経路を介して、必要なプログラムをコンピュータにダウンロードし、これを実行する態様を採るものとしてもよい。
以上で説明した未知語登録装置であるか否かを問わず、種々の未知語登録装置を利用した装置である本発明の仮名漢字変換装置は、
辞書を参照しつつ入力された仮名文字列を仮名漢字混じり表記に仮名漢字変換する仮名漢字変換装置であって、
予め用意された辞書に存在しない未知語に関するデータを、所定の管理データを含んだ未知語データとして、該辞書に追加登録する未知語登録手段と、
仮名漢字変換において前記未知語データが参照された場合には、前記管理データに基づいて該未知語を他の文字列と識別可能な方法で表示する未知語表示手段とを備えることを要旨とする。
かかる仮名漢字変換装置は、辞書に未知語データを追加登録する際に、所定の管理データを含んだ形で登録することができる。所定の管理データとは、登録された単語が未知語であることを示すインデックスとしてもよいし、登録された日付等としてもよい。かかる管理データを含めて登録された単語が仮名漢字変換において参照されると、上記仮名漢字変換装置は、該単語が未知語であることを認識し、他の文字列と識別可能な方法で表示する。かかる表示に基づき、該仮名漢字変換装置の使用者は辞書に登録された未知語の内容を認識することができ、使用者の意図しない形で辞書に登録された単語を発見することができる。この結果、辞書の維持管理を容易に行うことが可能となる。
かかる仮名漢字変換装置では、先に説明した種々の態様による未知語登録装置を利用することが望ましいが、所定の管理データを付して辞書に未知語を登録できるものであれば、いずれの未知語登録装置を利用するものとしてもよい。なお、仮名漢字変換とは、平仮名の文字列を漢字仮名混じり表記に変換することのみならず、カタカナ文字列や英字、数字混じりの文字列等、入力された平仮名文字列と同義の種々の表記に変換することを含めるものとしてもよい。また、未知語を他の文字列を識別可能に表示する方法には、例えば、未知語を他の文字列と色を変えて表示したり、フォントや文字サイズ等を変えて表示したり、未知語部分にはアンダーラインやハッチングを付して表示するなど、種々の態様による表示が可能である。
以下本発明の実施の形態について実施例に基づいて説明する。図1は、本実施例の未知語登録装置を含む日本語入力装置の制御ロジックを示すブロック図、図2は、この日本語入力装置のハードウェアを示すブロック図である。説明の便宜上、まずハードウェアの概略構成を図2を用いて説明する。
(1)実施例の概略構成
図2に示すように、日本語入力装置の内部では、CPU20、ROM22、RAM24、ハードディスク26、CD−ROMドライブ27がバス38により相互に接続されている。また、このバス38には、入出力ポート28も接続されている。入出力ポート28には、入出力装置として、キーボード30、CRTディスプレイ32、プリンタ34、スキャナ36がそれぞれ接続されている。なお、CD−ROMドライブ27はプログラムが格納された記録媒体に応じた記録媒体読みとり装置とすることができる。例えば、記録媒体として、いわゆるフレキシブルディスクを用いる場合には、CD−ROMドライブ27に代えて、またはCD−ROMドライブ27とともにフレキシブルディスクドライブをバス38に接続するものとしてもよい。
上記CPU20は周知のものであり、ROM22は基本ソフトウェア等を記憶するマスクメモリ、RAM24は主記憶を構成する読み出しおよび書き込みが可能なメモリである。また、ハードディスク26にはRAM24にロードされて実行される仮名漢字変換プログラムその他の各種プログラムや、そのプログラムが参照する各種変換辞書などが記憶されている。なお、仮名漢字変換プログラムは、ROM22に記憶しておくものとしてもよいし、CD−ROMに記憶しておきCD−ROMドライブ27を介してRAM24に読み込むものとしてもよい。
こうして構成されたハードウエアにより、文章の入力,仮名漢字変換,編集,表示,印刷などの機能が実現される。文章の入力は、キーボード30から文字列の形でなされる場合もあれば、スキャナ36からイメージ情報として入力される場合もある。こうして入力された文章は、CPU20により後述する種々の処理がなされ、RAM24の所定領域に格納され、CRT26の画面上に表示されたり、プリンタ34から出力されたりする。
次に、本実施例の日本語入力装置を機能ブロックで捕らえた場合の各部分の働きを図1を用いて説明する。図1に示した各機能ブロックのほとんどは、CPU20がソフトウェアに基づいて実行するものである。
入力部40には図2のキーボード30およびスキャナ36が相当し、日本語の文章を入力する部分である。入力部40から入力された文章は、入出力制御部46の制御の下、文字受取部48に送出される。ここで、入出力制御部46は、例えばキーボード30の操作がなされたとき、CPU20に所定の割り込み処理をかけ、文字列の入力処理を実行する等の制御を行う。また、スキャナ36から文章が入力される場合には、スキャナ36のドライバを起動する。
こうして入力された文章は、形態素解析部50により、形態素解析がなされる。形態素解析とは、例えば「くるまではこをはこぶ」と入力された仮名文字列を、辞書に登録された各単語の品詞情報等を参照することで、「くるまで/はこを/はこぶ」と解析する処理をいう。この際、形態素解析部50は、メモリ(ROM22、RAM24、ハードディスク26)に記録された自立語辞書62や付属語辞書64を参照する。また、解析の途中経過として得られる文節候補や単語候補をそれぞれ文節候補格納部54、単語候補格納部58に送出し、RAM24に格納する。また、仮名文字列が入力されている場合には、形態素解析部50は形態素解析結果に基づいて、仮名漢字変換を実行する。
なお、仮名漢字変換における形態素解析の途中経過として得られ、文節候補格納部54、単語候補格納部58に記憶されたそれぞれの候補は、入出力制御部46を介して表示部44に表示される。これらの文字列が非所望の文字列である可能性もあるため、形態素解析部50は使用者による指示を受けて、次候補の表示や選択などの処理を行う。図示していないが、これらの指示や選択の結果などは、学習結果として格納されている。
一方、形態素解析部50が文章の形態素解析を終了した後は、その結果を形態素出力部52に送出する。形態素出力部52は、さらに入出力制御部46を介して出力部42または表示部44に結果を出力する。出力部42には図2のプリンタ34が相当し、表示部44には図2のCRTディスプレイ32が相当する。
形態素解析の結果は、形態素出力部52から未知語抽出部56へも引き渡される。未知語抽出部56は、形態素解析結果に基づいて、自立語辞書62および自立語辞書62に存在しない未知語を抽出する。こうして抽出された未知語は、未知語登録部60に引き渡される。未知語登録部60は、各未知語について品詞の判定等、後述する所定の処理を行った上、自立語辞書62または付属語辞書64に未知語を登録する。また、自立語辞書62および付属語辞書64は、未知語削除部66によっても書き換え可能となっており、登録された未知語を必要に応じて削除することが可能となっている。
(2)未知語自動登録処理
次に、本実施例の未知語登録装置による未知語自動登録処理について図3に基づいて説明する。図3は、未知語自動登録ルーチンの流れを示すフローチャートである。このルーチンは、図2に示したCPU20により、日本語入力が実行されている最中に自動的に行われる処理である。日本語入力が終了した後に、所定のコマンドを入力することにより実行するものとしてもよい。
未知語自動登録ルーチンが開始されると、CPU20は、文章入力を行う(ステップS100)。文章は、入力部40(図1)に相当するキーボード30またはスキャナ36(図2)から入力される。文章は、キーボード30から文字列の形で入力されることもあれば、スキャナ36からイメージ情報の形で入力される場合もある。入力される文章は、仮名文字のみならず、漢字やカタカナ、英字、数字等が含まれているものであってもよい。
次に、CPU20は、形態素解析を実行する(ステップS105)。形態素解析に関しては、例えば2文節を基本単位とし成り立ち得る文節の中で最長の文節が得られる2文節を第1候補とする2文節最長一致法等、種々の方法が知られているが、本実施例では最小コスト法を用いている。最小コスト法とは、文節を構成する単語の候補となり得る単語および単語同士の組合わせにコストを付け、この点数が所定の条件を満たす文節を第1候補とする方法である。形態素解析の手法は、最小コスト法に限られるものではなく、既知のいずれの手法を用いても良い。
本実施例における形態素解析ルーチンについて説明する。図4にこのルーチンの流れを示す。先に述べた通り、最小コスト法と呼ばれる手法により形態素解析を行うルーチンである。この処理は、図1の機能ブロックに基づけば、形態素解析部50が行うものである。形態素解析部50は図2のCPU20の一処理機能を機能ブロックとして説明したものであるため、CPU20が形態素解析ルーチンを実行するといっても同じ意味である。
図4に示す通り、CPU20は、まず一時的に保存されたデータの消去や解析位置を1桁目に初期化するなどの初期化(ステップS200)を行った後、解析位置を求める処理を行う(ステップS205)。解析位置とは、入力された文章について次に解析を行う位置である。例えば、「くるまではこをはこぶ」という仮名文字列が入力されているとすれば、最初の解析位置は1桁目の「く」の位置であり、順次解析が進むにつれて、解析位置は「る」「ま」・・・と進む。この解析位置で、CPU20はハードディスク26に記憶された自立語辞書62および付属語辞書64を検索する処理を行う(ステップS210)。先の例でいえば、「く」という語を辞書から検索する。
辞書の検索を行った後、得られた単語についてそれ以前の単語との結合をチェックする処理を行い(ステップS215)、単語間の結合がありえない場合には、該単語は無効として、更に辞書を検索する。例えば、先の例文(「くるまではこをはこぶ」)中の「こをはこぶ」の「は」について付属語辞書64から検索された係助詞の「は」は、その直前の格助詞「を」との結合がありえないと判断されるから無効なデータとして扱われる。なお、図1のブロック図では示していないが、単語間の結合は品詞に応じて結合の可能性を示すテーブルとしてメモリ(RAM24、ROM22、ハードディスク26)内に記憶されている。従って、辞書に各単語の品詞が適切に登録されていない場合には、上記結合のチェックを適切に行うことができない。一つの解析位置での辞書検索と結合チェックが終われば、解析位置を順に進めて更に処理を繰り返す。
結合の可能性のある単語については、CPU20はコスト計算を行い、その語の最小総コストを求める処理を行い、(ステップS220)、不適切なコストのものを無効とする処理を行う(ステップS225)。これは、ある語の組み合わせについて自立語=2、付属語=0のコストを持つものと定義して解析位置までの総コストを計算し、他の語の組合わせと比べて大きい不適切なコストの組み合わせは無効とする処理である。先に示した例に基づいて説明すると、例文(「くるまではこをはこぶ」)中の「くるま」は、「く」+「る」+「ま」、「くる」+「ま」、「くるま」等種々の語の組み合わせに分けることができる。これらの各組み合わせについて単語を当てはめてコストを計算する。「く」+「る」に対し、「苦」(自立語)+「流」(自立語)という単語を当てはめれば、「流」はコスト4となる。一方、「くる」に対し「来る」(自立語)という単語を当てはめれば、コスト2となる。最小コスト法は、こうして求められたコストが最小となる組み合わせを採用するものであるため、この場合には、「来る」を採用することになる。かかる解析を続けていけば、「くるま」については、「車」(自立語)がコスト2で最小コストとなる。
また、「くるまで」について考えれば、「車」(自立語)+「で」(付属語)であるため、「で」のコストは「車で」の総コストに相当するコスト2となる。同様に「来る」(自立語)+「まで」(付属語)なる結果を考えれば、「まで」もコスト2となる。こうして得られた文節候補およびそのコストは、文節候補格納部54(図1)に記憶される。上述のコスト計算は、辞書に登録された単語の品詞に基づいて自立語か付属語かを判断して行われるものであるため、品詞が適切に登録されていない場合には、正確なコスト計算を実行することができないことになる。
次に、こうしてコストが与えられた単語候補をリンクする処理を行う(ステップS230)。即ち、結合が有効とされた語について、ポインタを設定することで、その結合を関係づける。上述の例文中「くるまで」について説明すれば、「車/で」および「来る/まで」に対し最小総コストの計算がなされたから、「来る」については「まで」にリンクし、「車」については「で」にリンクするというように関係づけるのである。こうした結合チェックやコスト計算、そしてリンクづけの処理を、一つの解析位置で総ての単語の検索が完了するまで繰り返す。また、その解析位置での辞書の検索が完了すると、更に解析位置を一つ進めて、新たな単語の成立を検討し、同様に結合チェックやコスト計算などを繰り返す。
解析位置が、既に入力された最後の仮名文字の位置に至り、全語について解析が完了した場合には(ステップS235)、以上の処理を前提として、最小コストのパスを検索する処理を行う(ステップS240)。これは、有効とされた語の組合わせのなかで、語に付与されたコストの総和が最小になるものを検索する処理である。「くるまではこをはこぶ」の例では、「車(2)/で(2)/箱(4)/を(4)/運ぶ(6)」という分かち書きが総コスト18で最小コストとなる。なお、かっこ書きの数字は各単語のコストを意味する。
このとき、最小コストではないが、他の文節分かち書きの候補も検索される。例えば、「車(2)/で(2)/は(2)/子(4)/を(4)/運ぶ(6)」という分かち書き(コスト=20)である。こうして分かち書きの候補を作成した後(ステップS245)、今度は各文節の内部での候補を作成する処理を行う(ステップS250)。即ち、ひとつの文節分かち書きの内部で、例えば「はこを」に対して「箱を」や「函を」といった候補を用意するのである。これらの文節の候補や単語の候補は、使用者により文節の分け方をかえるよう指示されたり、次候補を表示するよう指示された場合に使用される。
以上では、仮名文字列が入力された場合を例にとって、形態素解析ルーチンを説明したが、カタカナ、漢字、英字、数字等が混じった文章についての形態素解析も同様の処理である。上記説明から明らかな通り、形態素解析においては、辞書検索(ステップS210)が重要な役割を有する。
形態素解析(図3のステップS105)が終了すると、CPU20は次のステップに進み、未知語抽出処理を実行する(ステップS110)。これは、形態素解析ルーチンの辞書検索(図4のステップS210)において辞書に存在しなかった単語を抽出する処理である。なお、入力された文字列には、形態素解析ルーチンによれずに、所定の操作をすることにより、平仮名表記またはカタカナ表記等のまま入力が確定されることもあり、かかる単語についても辞書に存在しないものは未知語として抽出されることになる。未知語抽出処理ルーチンの流れを図5に示す。
このルーチンでは、CPU20は形態素解析された結果に基づいて、入力された文章の先頭から順に単語のピックアップをする(ステップS300)。後述する通り、本実施例の未知語登録装置は、辞書に存在する単語が結合して新たな一つの単語を形成している場合にも未知語として辞書に追加登録する機能を有している。従って、ここで、ピックアップする単語は、純粋に一単語である場合の他、二以上の単語がひとつにまとまって新たな語を形成している場合も含まれる。つまり、CPU20は、文章中に含まれる単語を一つずつピックアップする処理の他、前後の単語と組み合わせてピックアップする処理も実行するのである。次に、ピックアップした単語が辞書に存在しない単語であるかの判定をする(ステップS305)。該単語が辞書に既に存在する場合には、未知語に該当しないため、未知語フラグFに値0を代入する(ステップS315)。
ピックアップした単語が辞書に存在しない単語である場合には、次に未知語形態に該当するか否かの判定を行う(ステップS310)。未知語形態とは、未知語として登録すべき単語の構成を予め設定したものをいう。本実施例の未知語登録装置は、辞書に存在する単語が結合して新たな一つの単語を形成している場合にも未知語として辞書に追加登録するため、予めこのような形態を設定しない場合には、ひとつの未知語に連接する全ての単語との組み合わせを未知語として追加登録する可能性があり、辞書を記憶するメモリ容量がすぐに不足してしまうことになりかねない。未知語形態を以下の形態に限定することに代えて、例えば上記単語の結合については2種類までに制限したり、例えば未知語の文字数を10文字以内に制限したりする等、数量的な制限を設けるものとしてもよい。
具体的に、本実施例で設定されている未知語形態は、次の12形態である。なお、各形態中の例示における「/」は、2つ以上の単語が結合していることを意味するものであり、実際の未知語の一部であることを意味するものではない。
形態 1:平仮名のみで構成される不定語からなるもの(例:ふじ)。
形態 2:英字のみで構成される不定語からなるもの(例:EX)。
形態 3:英字のみで構成される複数の単語からなり、一部が辞書に存在するもの(例:TOP/SALES)。
形態 4:英字、記号、数字、カタカナの組み合わせで構成される不定語からなるもの(例:IPアドレス)。
形態 5:カタカナのみで構成される不定語からなるもの(例:アインシュタイン)。
形態 6:カタカナのみで構成される複数の単語からなり、一部が辞書に存在するもの(例:アイ/マスク)。
形態 7:カタカナのみで構成される単語が「・」で結合されるもの(例:トラブル・メーカー)。
形態 8:接頭語、接尾語のつくもの(例:再試験、対ソ)。
形態 9:漢字1文字の名詞+漢字1文字の名詞で構成されるもの(例:愛猫)。
形態10:漢字1文字の名詞+漢字2文字の名詞で構成されるもの(例:亜空間)。
形態11:漢字2文字の名詞+漢字1文字の名詞で構成されるもの(例:具体例)。
形態12:不定語となる漢字を含むもの(例:濱口)。
未知語形態は、上記で設定された形態以外の形態を追加するものとしてもよいし、上記形態の一部を削除してもよい。また、上記形態の一部を更に細分化した形態としてもよい。例えば、形態4を次の通り細分化してもよい。
形態4−1:英字、記号、数字のみから構成されるもの(例:AP−150P)。
形態4−2:英字、記号+カタカナから構成されるもの(例:IPアドレス)。
形態4−3:カタカナ+英字、記号から構成されるもの(例:テレフォンNO)。
また、形態8を次の通り細分化してもよい。
形態8−1:漢字のみから構成され接頭語、接尾語のつくもの(例:再試験)。
形態8−2:カタカナ+接尾語から構成されるもの(例:ロ社、フ諸島)。
形態8−3:接頭語+カタカナから構成されるもの(例:対ソ)。
なお、上述の未知語形態において、不定語とは、その単語のみで本来、固有の意味を有しない単語をいう。例えば、EX(例を意味する)のような略語、アインシュタインのような人名、濱口の「濱」のようないわゆる固有名漢字等が該当する。また、ここでいう接頭語、接尾語とは、国文法における接頭語、接尾語よりも広い概念である。つまり、名詞として成立するような語、例えば「社」や「諸島」等も接頭語、接尾語の範疇に含まれる。これらの語は、名詞および接頭語、接尾語という複数の品詞をもつものとして辞書に登録されているのである。
上記ピックアップした単語が上記未知語形態に該当する場合には、CPU20は、未知語フラグFに値1を代入する(ステップS320)。こうして全単語について未知語を抽出する処理(ステップS300〜S320)が終了した場合には(ステップS325)、未知語抽出処理ルーチンを一旦終了する。未知語抽出処理を終えた後(図3のステップS110)、CPU20は未知語品詞推定処理を実行する(図3のステップS115)。未知語品詞推定処理ルーチンについて図6を用いて説明する。
このルーチンでは、各単語について最初に未知語フラグFが値1であるか否かを判定する(ステップS400)。フラグFが値0である場合には、その単語は未知語でないことを意味しているため、品詞の推定は行わない。フラグFが値1である場合には、以下の手順により品詞判定を行う。
まず、その未知語に固有名漢字が含まれているか否かを判定する(ステップS405)。固有名漢字とは、「濱口」の「濱」のようにその漢字のみで固有の単語として用いられることはなく、人名、地名等の固有名詞の一部としてのみ使用される漢字をいう。各漢字が固有名漢字に該当するか否かは、辞書に登録されているデータに基づいて判断される。未知語に固有名漢字が使用されている場合には、該未知語の品詞は固有名詞であると判断される(ステップS410)。先に説明した形態12がここに該当し得る。なお、固有名漢字をさらに、人名のみに用いられる人名漢字、地名のみに用いられる地名漢字等に分類し、固有名詞を細分化した人名、地名等のグループで品詞を判定するものとしてもよい。
未知語に固有名漢字が含まれていない場合は、CPU20は、該未知語に後接する単語(以下、後接語とよぶ)を抽出し(ステップS415)、該後接語が仮名文字「な」であるか否かを判定する(ステップS420)。後接語が仮名文字「な」である場合には、CPU20は、その後接語の直後の後接語をさらに抽出し(ステップS425)、該後接語が体言であるか否かを判定する(ステップS430)。体言とは、名詞、代名詞、数詞等をいう。ここでいう名詞には、人名等、名詞を細分化して定義した種々の品詞も含んでいる。つまり、これらのステップにより、未知語の後に「仮名文字「な」+体言」なる語が連接しているか否かを判定しているのである。かかる語が連接している場合には、該未知語の品詞は形容動詞であると判定する(ステップS435)。なお、国文法における形容動詞には種々の定義が存在するが、本実施例においては、いわゆる連体形の活用語尾が「な」であるものは全て形容動詞であると定義している。上述の形態3ないし形態8がここに相当し得る。
なお、本実施例では形容動詞の活用語尾である「な」を一種の付属語として捕らえており、形容動詞の語幹に相当する部分が未知語として抽出されるため、上記ステップ(S420、S430)により形容動詞であるか否かの判定を行うことができる。これに対し、形態素解析の結果、形容動詞の語尾「な」も含めて未知語として抽出するような未知語抽出手段が用いられているような場合には、ステップS420を未知語の語尾が仮名文字「な」であるか否かにより形容動詞であると判定する手段としてもよい。また、本実施例では、仮名文字「な」の後に体言が後接するか否かも含めて品詞判定を行っている(ステップS430)が、このステップを省略し、仮名文字「な」が後接するか否か(ステップS420)のみによって品詞判定を行うものとしてもよい。
未知語に仮名文字「な」が連接していない場合、または仮名文字「な」の後に体言が連接していない場合は、ステップS415で抽出した後接語が「する」を含む動詞であるか否かを判定し(ステップS440)、かかる動詞に該当する場合には、未知語の品詞をサ変名詞と判定する(ステップS445)。上述の形態1ないし形態8がここに相当し得る。サ変名詞とは、名詞の一種として定義された品詞であり、例えば「増加(する)」等、サ行変格動詞と結合し得る名詞を意味する。なお、上述の「する」を含む動詞とはいわゆるサ行変格活用動詞(例えば、「する」、「決する」等)一般を意味し、後接語がかかる動詞に該当するか否かは、その活用形(「せ」、「し」、「すれ」、「せよ」等)も含めて判断される。
後接語が「する」を含む動詞でない場合には、次のステップにおいて、後接語が「ずる」を含む動詞であるか否かを判定し(ステップS450)、かかる動詞に該当する場合には、未知語の品詞をザサ変名詞と判定する(ステップS455)。上述の形態1ないし形態8がここに相当し得る。ザサ変名詞とは、名詞の一種として定義された品詞であり、例えば「格別(重んずる)」等、サ行変格活用動詞のうち語尾が濁る動詞(以下、ザ行変格活用動詞とよぶ)およびサ行変格活用動詞と結合し得る名詞を意味する。なお、上述の「ずる」を含む動詞とはザ行変格活用動詞(例えば、「信ずる」、「重んずる」等)一般を意味し、後接語がかかる動詞に該当するか否かは、その活用形(「ぜ」、「じ」、「ずれ」、「ぜよ」等)も含めて判断される。
後接語が「ずる」を含む動詞でない場合には、次のステップにおいて、後接語が接尾語に該当するか否かを判定する(ステップS460)。接尾語に該当しない場合には、未知語の直前に連接する語(以下、前接語とよぶ)を抽出し(ステップS465)、該前接語が接頭語に該当するか否かを判定する(ステップS470)。後接語が接尾語である場合または前接語が接頭語である場合には、接頭語または接尾語(以下、両者を合わせて接辞語とよぶ)の結合属性に基づいて、未知語の品詞を判定する(ステップS475)。上述の全ての形態がここに相当し得る。接辞語にはそれぞれ地名、人名その他細分化されたいずれの名詞と結合しやすいかをあらわす結合属性データが合わせて辞書に登録されている。例えば、接尾語「町」「市」等は、地名と結合し得る結合属性データを有しており、かかる接尾語が連接する未知語は地名であると判定される。このように、名詞を地名、人名等の更に細分化し、この範囲で品詞を判定するのである。
本実施例においては、接辞語の結合属性と未知語の品詞との関係として、次の6態様が設定されている。
態様1:接辞語が地名と結合し得る属性である場合(例:町、市、大字、丁目等)、未知語の品詞は「地名」とする。
態様2:接辞語が人名と結合し得る属性である場合(例:氏、課長、ミスター等)、未知語の品詞は「人名」とする。
態様3:接辞語が社名と結合し得る属性である場合(例:社、会社、洋行、銀行、製作所、カンパニー、鉄道等)、未知語の品詞は「社名」とする。
態様4:接辞語が組織名と結合し得る属性である場合(例:課、事業部等)、未知語の品詞は「組織名」とする。
態様5:接辞語が建物名と結合し得る属性である場合(例:ビル、寺、マンション、駅等)、未知語の品詞は「建物名」とする。
態様6:接辞語が商品名と結合し得る属性である場合(例:ジュース、饅頭等)、未知語の品詞は「商品名」とする。
接辞語の結合属性と未知語の品詞との関係は、これらに限定されるものではなく、更にいくつかの関係を設定してもよい。また、上記関係のうち、いくつかを削除してもよい。なお、本実施例における接辞語には、本来は名詞であるものも含まれている。これらの語は、名詞と接辞語の2つの品詞を有していることになる。
後接語が接尾語である場合および前接語が接頭語である場合のいずれにも該当しない場合には、未知語の品詞は名詞であると判定する(ステップS480)。以上の手順により、未知語について順に品詞を判定し、全ての未知語について判定が終了した場合には(ステップS485)、CPU20は、未知語品詞推定処理ルーチンを一旦終了する。
未知語品詞推定処理(図3のステップS115)が終了すると、次のステップにおいて、CPU20は、見出し作成処理(図3のステップS120)を実行する。見出し作成処理とは、未知語に対し、辞書に登録する読みを作成する処理である。見出し作成処理ルーチンの流れを図7に示す。
見出し作成処理ルーチンが開始されると、CPU20は、各単語について未知語フラグFが値1であるか否かを判定する(ステップS500)。フラグFが値1でない場合には、未知語ではないため、次の語の処理に移る。
フラグFが値1である場合には、次に該未知語が漢字からなる語か否かを判定する(ステップS505)。漢字からなる語とは、未知語が漢字のみからなる場合および漢字を一部に含む場合の双方を含んでいる。
未知語が漢字からなる語でない場合には、該未知語を構成する文字を1文字ずつ仮名表記にすることにより、未知語の仮名表記を生成する(ステップS510)。具体的には、カタカナは平仮名に変換し、英字、数字はその読みを平仮名で表す。従って、例えば、「アインシュタイン」なる未知語の仮名表記は「あいんしゅたいん」となり、「EX」なる未知語の仮名表記は「いーえっくす」となる。なお、未知語の一部が辞書に存在する場合には、その読みを利用して仮名表記を生成するものとしてもよい。例えば、「TOP SALES」なる未知語については、「とっぷせーるす」なる表記を生成するものとしてもよい。また、複数の読みが可能な場合には、全ての読みを生成するものとしてもよい。例えば、「TOP SALES」なる未知語については、先に挙げた読みの他、1文字ずつアルファベット読みをあてた表記「てぃーおーぴー・・・」なる読みを生成するものとしてもよい。
未知語が漢字からなる語である場合には、該漢字の読みの組み合わせに基づいて未知語の読みを生成する(ステップS515)。図7のステップS515では、漢字2文字からなる未知語について可能な読みを示した。つまり、このステップでは「音読み−音読み」、「訓読み−訓読み」、「音読み−訓読み」、「訓読み−音読み」の4つの読みを生成することになる。漢字3文字からなる未知語の場合には、更に組み合わせが増えることになる。
この場合においても、未知語の一部が辞書に存在する場合には、その読みを利用するものとしてもよい。例えば、「誕生日」が未知語として抽出され、「誕生(たんじょう)」が辞書に存在する場合には、「日」の部分のみを種々の読みに変更し、「たんじょうび」、「たんじょうひ」、「たんじょうにち」という読みを生成するものとしてもよい。また、漢字のみからなる単語については、「音読み−訓読み」、「訓読み−音読み」からなる読みを生じることは稀であるため、「音読み−音読み」、「訓読み−訓読み」からなる読みだけを生成するものとしてもよい。これらの手段を採れば、漢字の文字数が多い未知語について、現実にありえない不適切な読みを多数生成するおそれが低くなり、辞書に当てられるメモリを有効に活用することができる。
以上の手順により、未知語の読みを生成し、全ての未知語について読みの生成が終了した場合(ステップS520)には、見出し作成処理ルーチンを一旦終了する。見出し作成処理ルーチンが終了した後(図3のステップS120)、CPU20は、それぞれの未知語を、仮名漢字変換辞書および形態素解析辞書に登録する(ステップS125、S130)。これらの登録順序は、いずれが先であっても構わないし、同時に行うものとしてもよい。両者への登録を同時に行う場合としては、両者のデータが一部重複している場合が挙げられる。つまり、辞書に登録される実質的なデータ(未知語、読み等)は両辞書で共通のものとしておいて、そこに添付されるインデックスデータの使い分けにより、仮名漢字変換辞書として使用したり、形態素解析辞書として使用したりする場合である。
ここで、仮名漢字変換辞書とは、仮名漢字変換において使用される辞書をいい、入力された仮名文字列をインデックスとして仮名漢字混じり(英字、数字、記号混じりも含まれる)の表記データを対応させるための辞書をいう。従って、先に説明した見出し作成処理(ステップS120)において未知語の読みが複数作成されている場合には、仮名漢字変換辞書には、それら全ての読みをインデックスとして未知語が対応できるように未知語が登録される。
一方、形態素解析辞書とは、先に説明した形態素解析(ステップS105)において参照される辞書である。従って、形態素解析辞書には、入力された文字列が仮名漢字混じりである場合にも該文字列をインデックスとして単語の品詞等が参照できるような形式で、未知語が登録される。なお、図1に示した自立語辞書62および付属語辞書64は、これらとは異なる観点で辞書を区分したものであり、仮名漢字変換辞書および形態素解析辞書のそれぞれに、自立語辞書62および付属語辞書64が存在している。
上記各辞書に登録される具体的なデータとしては、仮名漢字混じりで表記された未知語データ、該未知語の品詞データ、該未知語の読みデータが主なデータである。この他、未知語の登録日や使用頻度等の管理情報を一緒に登録するものとしてもよい。
以上で説明した未知語登録装置によれば、第1に辞書への未知語の自動登録が可能となるため、使用者が自ら辞書に単語を追加登録しなくても、辞書データを豊富にすることができる。第2に未知語の品詞を適切に登録することが可能となる。つまり、使用者が未知語の品詞を入力する場合には、名詞等の特定の品詞に集中しがちであるが、上記未知語登録装置では未知語の品詞を推定できるため、適切な品詞を登録することができる。第3に未知語について可能な読みを複数推定し、全ての読みを登録することができる。この結果、未知語が不適切な読みで辞書に登録され、後の仮名漢字変換等で参照できないような事態が生じるおそれがなくなる。以上の種々の効果により、本実施例の未知語登録装置によれば、形態素解析ひいては仮名漢字変換の精度やOCR装置における識字率を向上することができる。
なお、上述の未知語登録装置における未知語の形態として、上記12の形態に加え、次の形態を含むものとしてもよい。
形態13:2文節からなる語が辞書の1文節に相当するもの(例:飛びこむ)。
例えば「飛びこむ」は「飛ぶ」+「こむ」なる結合であるように、上記形態は、それぞれ辞書に登録された単語の結合である。従って、かかる形態からなる未知語の品詞は、結合された各語の品詞を有するものとすればよい。つまり、「飛びこむ」であれば、結合された「飛ぶ」+「こむ」の双方ともに動詞であるため、未知語の品詞は動詞となる。上記形態では例えば、通常得られる「飛び込む」なる表記の他に、「飛びこむ」なる表記も考えられることから、両者を一つの未知語として辞書に登録すれば、所望の表記を得ることができるようになる。
もっとも、上記形態13について、「飛びこむ」なる表記は「飛び込む」なる表記の派生表記として捕らえることができるため、未知語としての登録ではなく、別途「飛び込む」と関連付けた派生表記としての登録方法を用いるものとしてもよい。
(3)未知語登録装置としての記録媒体
先に説明した未知語登録装置は、図3から図7に示した種々の処理を図2に示したコンピュータ(特にCPU20)が実行することにより実現したものであるため、これらの機能を実現するプログラムを記録した記録媒体によっても、未知語登録装置を実現することができる。このような記録媒体としては、図3に示した未知語自動登録ルーチン全てを記録した記録媒体であってもよいし、未知語品詞推定処理ルーチン(図6)のみを記録した記録媒体であってもよい。また、上記プログラムのうち、入出力に関する機能等の基本的な機能は、コンピュータに別途備えられている基本ソフトウェア(いわゆるBIOS等)を用いるものとしてもよい。
なお、記録媒体としては、フレキシブルディスクやCD−ROM、光磁気ディスク、ICカード、ROMカートリッジ、パンチカード、バーコードなどの符号が印刷された印刷物、コンピュータの内部記憶装置(RAMやROMなどのメモリ)および外部記憶装置等の、コンピュータが読取り可能な種々の媒体を利用できる。また、コンピュータに上記の発明の各工程または各手段の機能を実現させるコンピュータプログラムを通信経路を介して供給する態様、つまりプログラムをネットワーク上のサーバなどに置き、通信経路を介して、必要なプログラムをコンピュータにダウンロードし、これを実行する態様を採るものとしてもよい。
(4)未知語登録装置を利用した仮名漢字変換装置
次に、上記未知語登録装置を利用した仮名漢字変換装置としての実施例について説明する。該仮名漢字変換装置の構成は、図1および図2に示した日本語入力装置の構成と同様である。また、仮名漢字変換装置により参照される辞書には、先に説明した未知語自動登録ルーチン(図3)により、未知語が自動的に登録されている。但し、辞書に未知語が追加登録される際には、管理データとして、登録される単語が未知語であることを示すインデックスと、未知語の登録年月日が付されている。後で詳説するが、図9に示した辞書データに含まれる「*」なるインデックスおよび「19970818」なるデータが該当する。仮名漢字変換装置は、CPU20が図8に示す仮名漢字変換処理ルーチンを実行することにより仮名漢字変換を行う。なお、仮名漢字変換には、入力された平仮名文字列から仮名漢字混じり表記への変換のみならず、カタカナ文字列や英字、数字混じりの文字列等、入力された平仮名文字列と同義の種々の表記に変換することを含めるものとしてもよい。
図8に示した仮名漢字変換処理ルーチンの流れ、および図9に示した具体例により、仮名漢字変換処理について説明する。仮名漢字変換処理ルーチンが実行されると、CPU20は、仮名文字列を読み込む(ステップS600)。図9の具体例によれば、入力画面(a)および入力画面(b)に示された通り、平仮名文字列である「たんご」または「ふくご」を読み込む。
次に、CPU20は辞書を参照して、該仮名文字列に該当する仮名漢字混じり表記を辞書データから読み込む(ステップS605)。図9に基づいて説明すれば、「たんご」なる文字列に対しては、「単語」なる仮名漢字混じり表記が得られ、「ふくご」なる文字列に対しては、「複語」なる仮名漢字混じり表記が得られる。なお、「複語」とは「単語」に対して設けられた造語であり、使用者により未知語登録されている語である。従って、「ふくご」に対しては、辞書データに「*」なる文字が付されている。この記号は、「ふくご」が未知語として登録された単語であることを示すインデックスである。予め辞書に備えられている単語(以下、既知語という)である「たんご」には、このような記号は付されていない。また、「ふくご」には「19970818」なる文字列データも添えられている。これは、登録日、即ち「ふくご」が「1997年8月18日」に登録されたことを意味するデータである。既知語である「たんご」については登録日データは「00000000」なる文字列となっている。
こうして、仮名漢字混じり標記を得た後、CPU20は、上記インデックス「*」または登録日データにより、参照した単語が未知語であるか否かを判定する(ステップS610)。なお、上述の管理データは未知語と既知語とを区別することができるものであればよく、上記のインデックス等の他、品詞データの一つとして「未知語」なる品詞データをもつものとしてもよいし、該データが参照された回数データに基づいて判断するものとしてもよい。
CPU20は、単語が既知語である場合には既知語表示をし(ステップS615)、未知語である場合には未知語表示をする(ステップS620)。図9に基づいて説明すれば、既知語である「単語」については、出力画面(a)に示す通り「単語」なる語がそのまま表示される。一方、未知語である「複語」については、出力画面(b)に示す通り「複語」なる語が枠囲みを伴って表示される。かかる表示により、使用者は「複語」が未知語として登録された語であることを認識することができる。
なお、未知語表示(ステップS620)としては、未知語と既知語とを明確に識別し得る表示であればよい。例えば、未知語を他の文字列と色を変えて表示したり、フォントや文字サイズ等を変えて表示したり、未知語部分にはアンダーラインやハッチングを付して表示するなど、種々の態様による表示が考えられる。また、仮名文字列からの変換候補が複数表示される場合においても、変換候補中に未知語が含まれている場合には、他の候補と明確に識別し得る状態で表示されれるものとしてもよい。
かかる仮名漢字変換装置によれば、未知語表示に基づき、該仮名漢字変換装置の使用者は辞書に登録された未知語の内容を認識することができ、使用者の意図しない形で辞書に登録された単語を発見することができる。この結果、辞書の維持管理を容易に行うことが可能となる。
以上、本発明の実施例について説明してきたが、本発明はこれらに限定されるものではなく、その要旨を逸脱しない範囲で、種々の形態による実施が可能である。例えば、上記実施例においては、辞書に存在しない未知語を新たに追加登録する場合について説明しているが、辞書に存在する単語について未知語品詞推定処理(図6)や見出し作成処理(図7)を施すことにより、その品詞または読みの修正を行うものとしてもよい。
本実施例の未知語登録装置を含む日本語入力装置の制御ロジックを示すブロック図である。 日本語入力装置のハードウェアを示すブロック図である。 未知語自動登録ルーチンの流れを示すフローチャートである。 形態素解析ルーチンの流れを示すフローチャートである。 未知語抽出処理ルーチンの流れを示すフローチャートである。 未知語品詞推定処理ルーチンの流れを示すフローチャートである。 見出し語作成処理ルーチンの流れを示すフローチャートである。 仮名漢字変換処理ルーチンの流れを示すフローチャートである。 未知語表示例を示す説明図である。
符号の説明
20・・・CPU
22・・・ROM
24・・・RAM
26・・・ハードディスク
27・・・CD−ROMドライブ
28・・・入出力ポート
30・・・キーボード
32・・・CRTディスプレイ
34・・・プリンタ
36・・・スキャナ
38・・・バス
40・・・入力部
42・・・出力部
44・・・表示部
46・・・入出力制御部
48・・・文字受取部
50・・・形態素解析部
52・・・形態素出力部
54・・・文節候補格納部
56・・・未知語抽出部
58・・・単語候補格納部
60・・・未知語登録部
62・・・自立語辞書
64・・・付属語辞書
66・・・未知語削除部

Claims (13)

  1. 品詞データを含む辞書を備え、日本語文字列を入力する日本語入力装置において参照される前記辞書に存在しない未知語を、該辞書に自動登録する未知語登録装置であって、
    入力された日本語文字列を、前記辞書を参照して文節に分かち書きする手段と、
    該分かち書き結果に基づいて、前記辞書に存在しない未知語を、前記入力された日本語文字列から抽出する未知語抽出手段と、
    該未知語に前接または後接する語である連接語を、前記入力された日本語文字列から少なくとも一つ抽出する連接語抽出手段と、
    該連接語の構成、または前記辞書に記憶されている前記連接語の言語上の属性を示すデータに基づいて該未知語の品詞を判定する品詞判定手段と、
    前記判定された品詞を含めて前記未知語に関するデータを前記辞書に追加登録する追加登録手段とを備える未知語登録装置。
  2. 請求項1の未知語登録装置であって、
    前記品詞判定手段は、
    該未知語の直後に後接する前記連接語が、「する」を含む動詞またはその活用形である場合には、該未知語は該動詞と結合可能な名詞であるサ変名詞と判定する手段である未知語登録装置。
  3. 請求項1の未知語登録装置であって、
    前記品詞判定手段は、
    該未知語の直後に後接する前記連接語の構成が、仮名文字「な」である場合には、該未知語は形容動詞であると判定する手段である未知語登録装置。
  4. 請求項1の未知語登録装置であって、
    前記品詞判定手段は、
    該未知語の直後に後接する第1の連接語の構成が、仮名文字「な」であり、該第1の連接語の直後に後接する第2の連接語について前記辞書に登録されている品詞が体言に含まれる品詞である場合には、該未知語は形容動詞であると判定する手段である未知語登録装置。
  5. 請求項1の未知語登録装置であって、
    前記品詞判定手段は、
    前記連接語の品詞が接頭語または接尾語である場合には、該接頭語または接尾語に関して前記辞書に用意されたデータのうち、該接頭語または接尾語が地名、人名その他細分化されたいずれの名詞と結合しやすいかをあらわす結合属性データに応じて、該未知語は前記細分化されたいずれかの名詞であると判定する手段である未知語登録装置。
  6. 品詞データを含む辞書を備え、日本語文字列を入力する日本語入力装置において参照される辞書に存在しない未知語を、該辞書に自動登録する未知語登録装置であって、
    入力された日本語文字列を、前記辞書を参照して文節に分かち書きする手段と、
    該分かち書き結果に基づいて、前記辞書に存在しない未知語を、入力された日本語文字列から抽出する未知語抽出手段と、
    固有名詞にのみ用いられるものとして前記辞書に登録された固有名漢字が、該未知語の中に含まれているか否かを判定する固有名漢字判定手段と、
    前記未知語の中に前記固有名漢字が含まれている場合には、該未知語は固有名詞であると判定する品詞判定手段と、
    前記判定された品詞を含めて前記未知語に関するデータを前記辞書に追加登録する追加登録手段とを備える未知語登録装置。
  7. 辞書を参照しつつ入力された仮名文字列を仮名漢字混じり表記に仮名漢字変換する仮名漢字変換装置であって、
    予め用意された辞書に存在しない未知語に関するデータを、所定の管理データを含んだ未知語データとして、該辞書に追加登録する未知語登録手段と、
    仮名漢字変換において前記未知語データが参照された場合には、前記管理データに基づいて該未知語を他の文字列と識別可能な方法で表示する未知語表示手段とを備える仮名漢字変換装置。
  8. 品詞データを含む辞書を備え、日本語文字列を入力する日本語入力装置において参照される前記辞書に存在しない未知語を、コンピュータにより該辞書に自動登録させる未知語登録方法であって、
    入力された日本語文字列を、前記辞書を参照して文節に分かち書きさせ、
    該分かち書き結果に基づいて、前記辞書に存在しない未知語を、入力された日本語文字列から抽出させ、
    該未知語に前接または後接する語である連接語を、前記入力された日本語文字列から少なくとも一つ抽出させ、
    該連接語の構成、または該連接語に関し前記辞書に記憶されている言語上の属性データに基づいて該未知語の品詞を判定させ、
    前記判定された品詞を含めて前記未知語に関するデータを前記辞書に追加登録させる未知語登録方法。
  9. 日本語文字列を入力する際に参照される品詞データを含む辞書に存在しない未知語を、該辞書に自動登録する機能をコンピュータにより実現させるプログラムを記録したコンピュータ読みとり可能な記録媒体であって、
    入力された日本語文字列を文節に分かち書きし、前記辞書に存在しない語を、前記日本語文字列から抽出することによって得られた未知語を入力する機能と、
    該未知語に前接または後接する語である連接語を前記日本語文字列から少なくとも一つ抽出する機能と、
    該連接語の構成、または該連接語に関し前記辞書に記憶されている言語上の属性データに基づいて該未知語の品詞を判定する品詞判定機能と、
    前記判定された品詞を含めて前記未知語に関するデータを前記辞書に追加登録する機能とをコンピュータにより実現させるプログラムを記録した記録媒体。
  10. 請求項9の記録媒体であって、
    前記品詞判定機能として、
    該未知語の直後に後接する前記連接語が、「する」を含む動詞またはその活用形である場合には、該未知語は該動詞と結合可能な名詞であるサ変名詞と判定する機能をコンピュータにより実現させるプログラムを記録した記録媒体。
  11. 請求項9の記録媒体であって、
    前記品詞判定機能として、
    該未知語の直後に後接する前記連接語の構成が、仮名文字「な」である場合には、該未知語は形容動詞であると判定する機能をコンピュータにより実現させるプログラムを記録した記録媒体。
  12. 請求項9の記録媒体であって、
    前記品詞判定機能として、
    前記連接語の品詞が接頭語または接尾語である場合には、該接頭語または接尾語に関して前記辞書に用意されたデータのうち、該接頭語または接尾語が地名、人名その他細分化されたいずれの名詞と結合しやすいかをあらわす結合属性データに応じて、該未知語は前記細分化されたいずれかの名詞であると判定する機能をコンピュータにより実現させるプログラムを記録した記録媒体。
  13. 日本語文字列を入力する際に参照される品詞データを含む辞書に存在しない未知語を、該辞書に自動登録する機能をコンピュータにより実現させるプログラムを記録したコンピュータ読みとり可能な記録媒体であって、
    入力された日本語文字列を文節に分かち書きし、前記辞書に存在しない語を、前記日本語文字列から抽出することによって得られた未知語を入力する機能と、
    人名にのみ用いられるものとして前記辞書に登録された人名漢字が、該未知語の中に含まれているか否かを判定する機能と、
    固有名詞にのみ用いられるものとして前記辞書に登録された固有名漢字が、該未知語の中に含まれているか否かを判定する機能と、
    前記判定された品詞を含めて前記未知語に関するデータを前記辞書に追加登録する機能とをコンピュータにより実現させるプログラムを記録した記録媒体。
JP2004132643A 2004-04-28 2004-04-28 未知語登録装置および方法並びに記録媒体 Pending JP2004265440A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004132643A JP2004265440A (ja) 2004-04-28 2004-04-28 未知語登録装置および方法並びに記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004132643A JP2004265440A (ja) 2004-04-28 2004-04-28 未知語登録装置および方法並びに記録媒体

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP25603497A Division JP3581237B2 (ja) 1997-09-03 1997-09-03 未知語登録装置および方法並びに記録媒体

Publications (1)

Publication Number Publication Date
JP2004265440A true JP2004265440A (ja) 2004-09-24

Family

ID=33128572

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004132643A Pending JP2004265440A (ja) 2004-04-28 2004-04-28 未知語登録装置および方法並びに記録媒体

Country Status (1)

Country Link
JP (1) JP2004265440A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010191710A (ja) * 2009-02-18 2010-09-02 Yahoo Japan Corp ジャンル判定辞書作成装置、ジャンル判定装置及び方法
JP2010224887A (ja) * 2009-03-24 2010-10-07 Kddi Corp 単語境界決定装置および形態素解析装置
JP2012058980A (ja) * 2010-09-08 2012-03-22 Ird:Kk 情報処理装置、情報処理方法、及びプログラム
JP2013033367A (ja) * 2011-08-02 2013-02-14 Dainippon Printing Co Ltd 辞書作成装置、辞書作成方法、およびプログラム
US8538745B2 (en) 2009-01-05 2013-09-17 International Business Machines Corporation Creating a terms dictionary with named entities or terminologies included in text data
US8719021B2 (en) 2006-02-23 2014-05-06 Nec Corporation Speech recognition dictionary compilation assisting system, speech recognition dictionary compilation assisting method and speech recognition dictionary compilation assisting program

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8719021B2 (en) 2006-02-23 2014-05-06 Nec Corporation Speech recognition dictionary compilation assisting system, speech recognition dictionary compilation assisting method and speech recognition dictionary compilation assisting program
US8538745B2 (en) 2009-01-05 2013-09-17 International Business Machines Corporation Creating a terms dictionary with named entities or terminologies included in text data
JP2010191710A (ja) * 2009-02-18 2010-09-02 Yahoo Japan Corp ジャンル判定辞書作成装置、ジャンル判定装置及び方法
JP2010224887A (ja) * 2009-03-24 2010-10-07 Kddi Corp 単語境界決定装置および形態素解析装置
JP2012058980A (ja) * 2010-09-08 2012-03-22 Ird:Kk 情報処理装置、情報処理方法、及びプログラム
JP2013033367A (ja) * 2011-08-02 2013-02-14 Dainippon Printing Co Ltd 辞書作成装置、辞書作成方法、およびプログラム

Similar Documents

Publication Publication Date Title
US5612872A (en) Machine translation system
JP2002215617A (ja) 品詞タグ付けをする方法
JP2000514218A (ja) コンピュータシステムによる日本語テキストの単語の識別
JP2013117978A (ja) タイピング効率向上のためのタイピング候補の生成方法
JPH0724055B2 (ja) 単語分割処理方法
JP3992348B2 (ja) 形態素解析方法および装置、並びに日本語形態素解析方法および装置
Simard Automatic insertion of accents in French text
US8041556B2 (en) Chinese to english translation tool
JP2004265440A (ja) 未知語登録装置および方法並びに記録媒体
JP4431759B2 (ja) 未登録語自動抽出装置及びプログラム、並びに未登録語自動登録装置及びプログラム
JP3581237B2 (ja) 未知語登録装置および方法並びに記録媒体
US8977538B2 (en) Constructing and analyzing a word graph
Sukhahuta et al. Information extraction strategies for Thai documents
Olinsky et al. Non-standard word and homograph resolution for asian language text analysis.
Tongtep et al. Multi-stage automatic NE and pos annotation using pattern-based and statistical-based techniques for thai corpus construction
KR20080028655A (ko) 품사 태깅 장치 및 태깅 방법
Kwon et al. Stochastic Korean word-spacing with smoothing using Korean spelling checker
JP2006031099A (ja) 文字認識をコンピュータに行なわせるためのコンピュータ実行可能なプログラム
JP4279926B2 (ja) 未知語読み導出装置および未知語読み導出方法並びに記録媒体
JP3873305B2 (ja) 仮名漢字変換装置および仮名漢字変換方法
JP3949874B2 (ja) 翻訳訳語学習方法、翻訳訳語学習装置、記憶媒体及び翻訳システム
JP2000029882A (ja) 要約文作成装置
KR19990001034A (ko) 문맥 정보 및 지역적 문서 형태를 이용한 문장 추출 방법
JP3700193B2 (ja) 仮名漢字変換装置および仮名漢字変換方法
JP3873299B2 (ja) 仮名漢字変換装置および仮名漢字変換方法

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20050420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060425

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060608

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060704