JPH1185737A - Device and method for managing dictionary and recording medium - Google Patents

Device and method for managing dictionary and recording medium

Info

Publication number
JPH1185737A
JPH1185737A JP9268095A JP26809597A JPH1185737A JP H1185737 A JPH1185737 A JP H1185737A JP 9268095 A JP9268095 A JP 9268095A JP 26809597 A JP26809597 A JP 26809597A JP H1185737 A JPH1185737 A JP H1185737A
Authority
JP
Japan
Prior art keywords
dictionary
unknown word
data
kana
unknown
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9268095A
Other languages
Japanese (ja)
Other versions
JP3900616B2 (en
Inventor
Yasuo Koyama
泰男 小山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
EE I SOFT KK
Original Assignee
EE I SOFT KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by EE I SOFT KK filed Critical EE I SOFT KK
Priority to JP26809597A priority Critical patent/JP3900616B2/en
Publication of JPH1185737A publication Critical patent/JPH1185737A/en
Application granted granted Critical
Publication of JP3900616B2 publication Critical patent/JP3900616B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

PROBLEM TO BE SOLVED: To efficiently process specified data at one part of unknown word data by performing prescribed processing to the unknown word data corresponding to specified managing data extracted from a dictionary. SOLUTION: A user can easily delete the unknown word data from the dictionary by specifying conditions for deleting unknown words. As a result, the state of registering a lot of unwanted unknown words on the dictionary and lowering the retrieval efficiency of the dictionary can be prevented. Further, the convenience of a Japanese word input device can be improved as well. Besides, since the conditions for deleting the unknown words can be specified based on the date of unknown word registration or the conditions of reference, the user can objectively judge whether each unknown word is required or not. Namely, only the unknown word with data, which show the reference conditions, showing the extremely small number of times can be deleted as well and only the unknown word showing the extremely old date of registration can be deleted as well. Further, by designating the both, only the unknown word showing the old date of registration and the low conditions of reference can be deleted as well.

Description

【発明の詳細な説明】DETAILED DESCRIPTION OF THE INVENTION

【0001】[0001]

【発明の属する技術分野】本発明は、日本語入力装置に
おいて参照される辞書を管理する技術に関し、詳しくは
該辞書に登録された未知語データのうち一部の特定され
たデータを効率的に処理する技術に関する。
BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a technique for managing a dictionary referred to in a Japanese input device. More specifically, the present invention relates to a technique for efficiently identifying a part of unknown word data registered in the dictionary. Processing technology.

【0002】[0002]

【従来の技術】従来、日本語入力装置として、キーボー
ドなどから入力された仮名文字列を所望の仮名漢字混じ
り文に変換する種々の仮名漢字変換装置や、日本語の文
章をスキャナ等で取り込んだイメージ情報から文字を認
識するいわゆるOCR装置が提案されている。仮名漢字
変換装置では、予め用意された辞書を参照することによ
り、入力された仮名文字列に対応する仮名漢字混じり表
記を検索し、仮名文字列を各表記に変換している。OC
R装置では、イメージ情報から文字データへの変換精
度、つまり識字率を向上するために、一文字単位での変
換のみならず、入力された日本語文字列を辞書を参照し
つつ、単語単位で適切な文字への変換を行うものもあ
る。
2. Description of the Related Art Conventionally, as a Japanese input device, various kana / kanji conversion devices for converting a kana character string input from a keyboard or the like into a desired kana / kanji mixed sentence, or a Japanese sentence taken by a scanner or the like. A so-called OCR device for recognizing characters from image information has been proposed. The kana-kanji conversion device searches for a kana-kanji mixed notation corresponding to the input kana character string by referring to a dictionary prepared in advance, and converts the kana character string into each notation. OC
In order to improve the conversion accuracy from image information to character data, that is, the literacy rate, the R device performs not only conversion on a character-by-character basis, but also an input Japanese character string on a word-by-word basis while referring to a dictionary. Some perform conversion to unusual characters.

【0003】従って、これらの日本語入力装置で日本語
を正確に入力するためには、前記辞書に豊富な単語が登
録されていることが重要となるが、実際に使用される全
ての単語を登録した辞書を作成することは非常に困難で
ある。仮名漢字変換装置の使用者が用いる用語はその使
用者が入力する内容によってまちまちであり、また、日
常生活においても多種多様な単語が新語として作り出さ
れているからである。更に、住所、氏名や商品名等まで
辞書に登録しようとすることは、ほとんど不可能に近
い。かかる課題を解決しつつ、使用者にとっての利便性
を確保すべく、多くの仮名漢字変換装置は、予め基本的
な単語のみを登録した辞書を用意しておき、該辞書に存
在しない単語については、使用者が新たな単語、即ち未
知語を追加登録できる機能を設けている。また、未知語
を自動的に検出し、辞書に自動登録する装置も提案され
ている(特開平6−12453等)。未知語の自動登録
を行う際に、その未知語について可能な全ての読みを推
定し、辞書の数カ所に該未知語を登録する装置も提案さ
れている。
Therefore, in order to input Japanese correctly with these Japanese input devices, it is important that abundant words are registered in the dictionary, but all words actually used are registered. It is very difficult to create a registered dictionary. This is because the terms used by the user of the kana-kanji conversion device vary depending on the contents input by the user, and various words are created as new words in daily life. Furthermore, it is almost impossible to register an address, a name, a product name, and the like in a dictionary. In order to solve these problems and ensure convenience for the user, many kana-kanji conversion devices prepare a dictionary in which only basic words are registered in advance, and for words that do not exist in the dictionary, , The user can additionally register a new word, that is, an unknown word. Further, a device for automatically detecting an unknown word and automatically registering it in a dictionary has been proposed (Japanese Patent Laid-Open No. 6-12453). When automatically registering an unknown word, a device that estimates all possible readings of the unknown word and registers the unknown word in several places in a dictionary has also been proposed.

【0004】一方、上述した未知語を追加登録すること
ができる辞書を管理する辞書管理装置がある。辞書管理
装置とは、辞書に追加登録された未知語について使用者
が削除等の処理を行い、辞書を管理するための装置であ
る。辞書の管理が必要となるのは、辞書に未知語が多数
追加登録された場合、辞書の検索時に参照すべきデータ
が増大するため、辞書に要するメモリの増大を招くとと
もに、辞書の検索効率が低下することになるからであ
る。特に、未知語が自動登録される装置では、使用者が
意図しない未知語が辞書に登録され、検索効率の低下を
招く可能性もある。従来の辞書管理装置は、使用者が辞
書に登録された単語の一覧を参照しつつ、自己にとって
不要な登録データを一つ一つ選択しては、削除等するも
のである。
On the other hand, there is a dictionary management apparatus for managing a dictionary in which unknown words can be additionally registered. The dictionary management device is a device for the user to perform processing such as deletion of unknown words additionally registered in the dictionary and manage the dictionary. Dictionary management is necessary because, when a large number of unknown words are additionally registered in the dictionary, the data to be referred to when searching the dictionary increases, thereby increasing the memory required for the dictionary and increasing the dictionary search efficiency. This is because it will decrease. In particular, in a device in which unknown words are automatically registered, unknown words that the user does not intend are registered in the dictionary, which may cause a reduction in search efficiency. In a conventional dictionary management device, a user selects and deletes registration data unnecessary for himself / herself while referring to a list of words registered in a dictionary.

【0005】[0005]

【発明が解決しようとする課題】しかし、従来の辞書管
理装置においては、辞書を管理する際における利便性は
ほとんど考慮されていなかった。登録データの削除を例
にとって説明すれば、上述の通り、使用者は辞書に登録
された単語の中から不要な登録データを一つ一つ選択し
て削除する必要があるため、登録されている単語数が多
い場合には、削除に多くの手間が必要であった。また、
一つの未知語について、複数の読みが与えられ、辞書中
の数カ所に自動登録されているような場合には、これら
のデータを全て探し出し、削除することは困難であっ
た。つまり、上記複数の読みの中には、誤った読みが含
まれている可能性があるが、この誤った読みに対応する
データを削除することが困難であった。さらに、複数の
読みが与えられて自動登録された場合には、未知語が何
種類の読みで登録されているのかを使用者が知ることが
できないため、ますます辞書の管理は困難であった。こ
うした辞書の管理の困難性は、先に述べた通り、辞書の
検索効率を低下させることにつながり、ひいてはその辞
書を参照する日本語入力装置の利便性をも低下させるお
それもあった。なお、こうした問題は単に追加登録され
た未知語の削除に止まらず、辞書を管理するための種々
の処理を実行する際にも同様に生じていた。
However, in the conventional dictionary management apparatus, little consideration has been given to the convenience in managing the dictionary. Taking the deletion of registration data as an example, as described above, the user needs to select and delete unnecessary registration data one by one from words registered in the dictionary. When the number of words is large, a lot of trouble is required for deletion. Also,
When a plurality of readings are given for one unknown word and are automatically registered in several places in the dictionary, it is difficult to find out and delete all of these data. That is, although there is a possibility that an erroneous reading is included in the plurality of readings, it has been difficult to delete data corresponding to the erroneous reading. Furthermore, when multiple readings are given and registered automatically, the dictionary cannot be easily managed because the user cannot know how many kinds of readings the unknown word is registered. . As described above, the difficulty in managing the dictionary has led to a reduction in the dictionary search efficiency, and has a possibility of reducing the convenience of the Japanese input device that refers to the dictionary. Note that such a problem has occurred not only when an unknown word that has been additionally registered is simply deleted but also when various processes for managing a dictionary are executed.

【0006】本発明は上記課題の少なくとも一部を解決
するためになされ、未知語を追加登録可能な辞書につい
て、未知語データのうち一部の特定されたデータを効率
的に処理し、その管理を行う技術を提供することを目的
とする。
SUMMARY OF THE INVENTION The present invention has been made to solve at least a part of the above problems, and efficiently processes and manages a part of unknown word data in a dictionary in which unknown words can be additionally registered. The purpose is to provide a technology for performing.

【0007】[0007]

【課題を解決するための手段およびその作用・効果】上
述した課題の少なくとも一部を解決するために、本発明
は次の構成を採った。本発明の第1の辞書管理装置は、
日本語文字列を入力する日本語入力装置において参照さ
れる辞書を管理する辞書管理装置であって、予め用意さ
れた辞書に存在しない未知語に関するデータを、所定の
管理データを含み得る未知語データとして追加登録可能
な辞書と、前記辞書に追加登録された未知語のうち少な
くとも一部の未知語を選択する条件を、前記管理データ
に基づいて特定する未知語検索条件特定手段と、前記特
定された管理データに対応する未知語データを、前記辞
書から抽出する未知語抽出手段と、前記抽出された未知
語データに対して所定の処理を行う未知語処理手段とを
備えることを要旨とする。
Means for Solving the Problems and Their Functions and Effects In order to solve at least a part of the problems described above, the present invention has the following configuration. A first dictionary management device according to the present invention includes:
A dictionary management device for managing a dictionary referred to in a Japanese input device for inputting a Japanese character string, wherein unknown word data that may include predetermined management data includes data on unknown words that do not exist in a prepared dictionary. A dictionary that can be additionally registered as, a condition for selecting at least a part of unknown words among the unknown words additionally registered in the dictionary, an unknown word search condition specifying unit that specifies based on the management data, The gist of the present invention is to include an unknown word extracting means for extracting unknown word data corresponding to the managed data from the dictionary, and an unknown word processing means for performing a predetermined process on the extracted unknown word data.

【0008】本発明の第1の辞書管理方法は、予め用意
された辞書に存在しない未知語に関するデータを、所定
の管理データを含み得る未知語データとして追加登録可
能に構成されており、日本語文字列を入力する日本語入
力装置において参照される辞書を、コンピュータにより
管理する辞書管理方法であって、前記辞書に追加登録さ
れた未知語のうち少なくとも一部の未知語を選択する条
件を、前記管理データに基づいて特定し、前記特定され
た管理データに対応する未知語データを、前記辞書から
抽出し、前記抽出された未知語データに対して所定の処
理を行うことを要旨とする。
A first dictionary management method according to the present invention is configured so that data relating to an unknown word which does not exist in a prepared dictionary can be additionally registered as unknown word data which can include predetermined management data. A dictionary referred to in a Japanese input device for inputting a character string, a dictionary management method for managing by a computer, a condition for selecting at least some unknown words among unknown words additionally registered in the dictionary, The gist is to identify the unknown word data corresponding to the identified management data based on the management data, extract the unknown word data from the dictionary, and perform a predetermined process on the extracted unknown word data.

【0009】かかる辞書管理装置および方法では、未知
語データに含まれる管理データに基づいて、辞書に追加
登録された未知語のうち少なくとも一部の未知語を選択
し、選択された未知語データに対して処理の処理を行う
ことができる。この際、前記管理データを特定すれば、
処理の対象となる未知語データを辞書から自動的に抽出
した上で処理を実行するため、使用者が未知語を一つ一
つ選択して処理を行うような手間をかける必要がない。
また、特定された管理データに該当する未知語データを
全て自動的に抽出できるため、未知語データについても
れなく処理を行うことができ、辞書の管理を確実に行う
ことができる。
In the dictionary management apparatus and method, at least some of the unknown words added to the dictionary are selected based on the management data included in the unknown word data, and the selected unknown word data is added to the selected unknown word data. On the other hand, processing can be performed. At this time, if the management data is specified,
Since the process is performed after automatically extracting the unknown word data to be processed from the dictionary, it is not necessary for the user to select the unknown words one by one and perform the process.
Further, since all the unknown word data corresponding to the specified management data can be automatically extracted, the unknown word data can be completely processed, and the dictionary can be managed reliably.

【0010】なお、上述の管理データとしては、未知語
であることを示すインデックス、未知語が辞書に登録さ
れた時期を示すデータ、辞書に登録された後の未知語の
参照状況を示すデータ等種々のデータが考えられる。管
理データは辞書に登録される際に、未知語のみに添付さ
れる特別なデータである必要はなく、例えば、単語の品
詞データを管理データとして用いるものとし、品詞デー
タに「未知語」なる品詞を含めるものとしてもよい。
The management data includes an index indicating an unknown word, data indicating the time when the unknown word was registered in the dictionary, data indicating the reference status of the unknown word after being registered in the dictionary, and the like. Various data can be considered. When the management data is registered in the dictionary, it is not necessary to be special data attached only to the unknown word. For example, it is assumed that the word class data of the word is used as the management data, and the word class “unknown word” is included in the word class data. May be included.

【0011】上述の所定の処理には、未知語データにつ
いて行われる種々の処理が含まれる。例えば、次に示す
未知語データの削除であってもよいし、該当する未知語
データに所定のフラグデータを添付することにより擬似
的に辞書から削除する処理であってもよい。また、未知
語の参照状況をリセットする等、未知語データに付され
た管理データを変更する処理であってもよい。さらに、
前記フラグデータを付して擬似的に辞書から削除した未
知語データから、該フラグを削除し、有効な未知語デー
タとして復活する処理を含めるものとしてもよい。
The above-mentioned predetermined process includes various processes performed on unknown word data. For example, the following unknown word data may be deleted, or a process of pseudo-deleting the unknown word data from the dictionary by attaching predetermined flag data to the corresponding unknown word data may be used. Further, a process of changing the management data attached to the unknown word data, such as resetting the reference status of the unknown word, may be used. further,
A process of deleting the flag from the unknown word data pseudo-deleted from the dictionary with the flag data attached thereto and restoring the unknown word data as valid unknown word data may be included.

【0012】これら種々のデータが考えられる中でも特
に、前記未知語処理手段は、前記所定の処理として、前
記抽出された未知語データを前記辞書から削除する処理
を行う手段であり、前記管理データは、前記辞書に登録
された各未知語データの参照状況を示すデータまたは各
未知語が前記辞書に登録された時期を示すデータとする
ことが望ましい。
[0012] Among these various data, the unknown word processing means is means for performing, as the predetermined processing, a process of deleting the extracted unknown word data from the dictionary. It is preferable that the data indicates the reference status of each unknown word data registered in the dictionary or the data indicates the time when each unknown word is registered in the dictionary.

【0013】かかるデータを管理データとして用いれ
ば、未知語の参照状況や登録された時期に基づいて、使
用者は各未知語が不要なものであるか否かを客観的に判
断し、削除することができる。この結果、参照状況を示
すデータが非常に低い回数を示している未知語のみを削
除することもできるし、登録時期が非常に古い未知語の
みを削除することもできる。また、上記管理データの双
方を用いるものとしてもよい。この場合には、登録時期
が古く、かつ参照状況が低い未知語のみを削除すること
もできる。
If such data is used as management data, the user objectively determines whether or not each unknown word is unnecessary based on the reference status of the unknown word and the registered time, and deletes it. be able to. As a result, it is possible to delete only an unknown word whose data indicating the reference status indicates a very low number of times, or to delete only an unknown word whose registration time is very old. Further, both of the management data may be used. In this case, it is also possible to delete only unknown words whose registration time is old and whose reference status is low.

【0014】先に述べた辞書管理装置においては、前記
辞書は、日本語文字列を文節に分かち書きする形態素解
析において参照される形態素解析用辞書と、仮名漢字変
換において参照される仮名漢字変換用辞書を有し、該形
態素解析用辞書は、前記管理データ、読みおよび仮名漢
字混じり表記を含む未知語データを関連付けて登録した
辞書であり、該かな漢字変換用辞書は、仮名文字からな
る読みをインデックスとして仮名漢字混じりの表記を登
録した辞書であり、前記未知語抽出手段は、前記特定さ
れた管理データに対応する未知語データを、前記形態素
解析用辞書から抽出する手段と、該抽出された未知語デ
ータに含まれる読みおよび仮名漢字混じり表記に基づい
て、前記仮名漢字変換用辞書に登録された未知語データ
を抽出する手段を備えるものとしてもよい。
In the dictionary management apparatus described above, the dictionary includes a morphological analysis dictionary referred to in morphological analysis for separating Japanese character strings into phrases and a kana-kanji conversion dictionary referred to in kana-kanji conversion. The dictionary for morphological analysis is a dictionary in which the management data, the reading and kana-kanji mixed notation including unknown word data including the kana-kanji mixed notation are registered, and the kana-kanji conversion dictionary uses a reading composed of kana characters as an index. A dictionary in which kana-kanji mixed expressions are registered, wherein the unknown word extracting means extracts unknown word data corresponding to the specified management data from the morphological analysis dictionary; and Means for extracting unknown word data registered in the kana-kanji conversion dictionary based on the pronunciation and kana-kanji mixed notation included in the data. It may be what you get.

【0015】かかる辞書管理装置は、管理データに基づ
いて処理すべき未知語データを形態素解析辞書から抽出
する。該形態素解析辞書には、前記管理データ、読みお
よび仮名漢字混じり表記を含む未知語データを関連付け
て登録してあるため、処理すべき未知語に複数の読みが
与えられている場合でも、全ての読みを検出することが
できる。こうして検出された全ての読みに基づいて、上
記辞書管理装置は、仮名漢字変換辞書を検索し、処理す
べき未知語データを抽出する。従って、かかる辞書管理
装置によれば、未知語に複数の読みが与えられて登録さ
れ、処理すべき未知語データが仮名漢字変換辞書の数カ
所に散在している場合であっても、効率的に未知語を処
理することができる。上述した形態素解析辞書を介する
ことなく仮名漢字変換辞書から未知語データを検索しよ
うとすれば、仮名漢字変換辞書に含まれるデータを先頭
から最後まで一つ一つ検索していく必要が生じるからで
ある。
The dictionary management apparatus extracts unknown word data to be processed based on the management data from the morphological analysis dictionary. In the morphological analysis dictionary, the management data, the reading and the unknown word data including the kana-kanji mixed notation are registered in association with each other. Therefore, even when a plurality of readings are given to the unknown word to be processed, all the readings are given. Reading can be detected. Based on all the readings thus detected, the dictionary management device searches the kana-kanji conversion dictionary and extracts unknown word data to be processed. Therefore, according to such a dictionary management device, even when a plurality of readings are given to an unknown word and registered, and the unknown word data to be processed is scattered in several places in the kana-kanji conversion dictionary, it is efficiently used. Unknown words can be processed. If you try to retrieve unknown word data from the Kana-Kanji conversion dictionary without going through the morphological analysis dictionary described above, it will be necessary to search the data contained in the Kana-Kanji conversion dictionary one by one from the beginning to the end. is there.

【0016】形態素解析辞書を介して仮名漢字変換辞書
に登録された未知語データを検索するために、未知語の
読みではなく形態素解析辞書に仮名漢字変換辞書中にお
ける未知語データの存在位置を示す特別なデータを備え
るものとしてもよい。但し、形態素解析辞書に登録され
た読みを媒介として仮名漢字変換辞書の検索を行う上述
の方法によれば、仮名漢字変換辞書を検索するための特
別なデータを備える場合に比べて、形態素解析辞書のメ
モリ容量を節約することができ、また両辞書の管理が容
易になるという利点もある。
In order to search for unknown word data registered in the kana-kanji conversion dictionary via the morphological analysis dictionary, the position of the unknown word data in the kana-kanji conversion dictionary is indicated in the morphological analysis dictionary instead of reading the unknown word. Special data may be provided. However, according to the above-described method of searching the kana-kanji conversion dictionary using the pronunciation registered in the morphological analysis dictionary as a medium, the morphological analysis dictionary is compared with a case where special data for searching the kana-kanji conversion dictionary is provided. This has the advantage that the memory capacity can be saved, and the management of both dictionaries is facilitated.

【0017】本発明の第2の辞書管理装置は、日本語文
字列を入力する日本語入力装置において参照される辞書
を管理する辞書管理装置であって、予め用意された辞書
に存在しない未知語に関するデータを未知語データとし
て追加登録可能な辞書と、前記辞書に登録された一の未
知語について、前記日本語入力装置による仮名漢字変換
において入力された読みを検出する読み検出手段と、前
記辞書から、前記一の未知語に関する未知語データを抽
出する未知語抽出手段と、前記抽出された未知語データ
のうち、前記検出された読みと異なる読みに対応するデ
ータに対して所定の処理を行う未知語処理手段とを備え
ることを要旨とする。
A second dictionary management device according to the present invention is a dictionary management device for managing a dictionary referred to in a Japanese input device for inputting a Japanese character string, and includes an unknown word that does not exist in a prepared dictionary. A dictionary capable of additionally registering data related to unknown words as unknown word data, reading detection means for detecting a reading input in the kana-kanji conversion by the Japanese input device for one unknown word registered in the dictionary, and the dictionary And unknown word extracting means for extracting unknown word data relating to the one unknown word, and performing a predetermined process on data corresponding to a reading different from the detected reading among the extracted unknown word data. The gist is to include an unknown word processing unit.

【0018】本発明の第2の辞書管理方法は、予め用意
された辞書に存在しない未知語に関するデータを、未知
語データとして追加登録可能に構成されており、日本語
文字列を入力する日本語入力装置において参照される辞
書を、コンピュータにより管理する辞書管理方法であっ
て、前記辞書に登録された一の未知語について、前記日
本語入力装置による仮名漢字変換において入力された読
みを検出し、前記辞書から、前記一の未知語に関する未
知語データを抽出し、前記抽出された未知語データのう
ち、前記検出された読みと異なる読みに対応するデータ
に対して所定の処理を行うことを要旨とする。
A second dictionary management method according to the present invention is configured such that data relating to an unknown word which does not exist in a prepared dictionary can be additionally registered as unknown word data. A dictionary referred to in the input device, a dictionary management method for managing by a computer, for one unknown word registered in the dictionary, to detect the reading input in the kana-kanji conversion by the Japanese input device, Extracting, from the dictionary, unknown word data related to the one unknown word, and performing a predetermined process on data corresponding to a reading different from the detected reading among the extracted unknown word data. And

【0019】かかる辞書管理装置および方法では、日本
語入力装置による仮名漢字変換において辞書に登録され
た未知語が参照された場合に、仮名漢字変換において入
力された読みと異なる読みに対応するデータに対して所
定の処理を行う。未知語が辞書に自動登録される場合に
は、未知語の読みを複数推定して登録されることがあ
る。かかる場合には、推定された読みの一部は誤った読
みである可能性がある。上記辞書管理装置によれば、仮
名漢字変換において用いられた読みを検出することによ
り、使用者に特別な負担を与えることなく、このような
誤った読みで登録された未知語データを検出し、効率的
に処理することができる。
In the dictionary management device and method, when an unknown word registered in the dictionary is referred to in the kana-kanji conversion by the Japanese input device, the data corresponding to the reading different from the reading input in the kana-kanji conversion is converted. Then, predetermined processing is performed. When an unknown word is automatically registered in the dictionary, a plurality of readings of the unknown word may be estimated and registered. In such a case, some of the estimated readings may be incorrect readings. According to the dictionary management device, by detecting the reading used in the kana-kanji conversion, without imposing a special burden on the user, detecting the unknown word data registered with such an incorrect reading, It can be processed efficiently.

【0020】なお、未知語データの削除は、仮名漢字変
換において未知語が参照された時点で行うものとしても
よいし、仮名漢字変換において参照された読みを別途保
存しておくことにより仮名漢字変換を終えた後に行うも
のとしてもよい。また、データを削除する際に使用者に
確認を採るようにしたり、第1の辞書管理装置と組み合
わせることによって未知語データに含まれる管理データ
を参照するようにすることによって、検出された読みと
異なる読みに対応するデータの一部のみを処理するもの
としてもよい。こうしておけば、実際に複数の読みが可
能な未知語に対するデータを適切に管理することが可能
となる。
The deletion of the unknown word data may be performed when the unknown word is referred to in the kana-kanji conversion. Alternatively, the reading referred to in the kana-kanji conversion may be separately saved. It may be performed after completing. Also, by asking the user to confirm when deleting data, or by referring to the management data included in the unknown word data by combining with the first dictionary management device, the detected reading and Only a part of data corresponding to different readings may be processed. By doing so, it becomes possible to appropriately manage data for unknown words that can be actually read.

【0021】上述の第2の辞書管理装置は、前記辞書
は、前記日本語入力装置により日本語文字列を文節に分
かち書きする形態素解析において参照される形態素解析
用辞書と、前記日本語入力装置による仮名漢字変換にお
いて参照される仮名漢字変換用辞書とを有し、該形態素
解析用辞書は、読みおよび仮名漢字混じり表記を含む未
知語データを関連付けて登録した辞書であり、該かな漢
字変換用辞書は、仮名文字からなる読みをインデックス
として仮名漢字混じりの表記を登録した辞書であり、前
記未知語抽出手段は、未知語の仮名漢字混じり表記に基
づいて、前記形態素解析用辞書に登録された未知語デー
タを抽出する手段と、該抽出された未知語データに含ま
れる読みおよび仮名漢字混じり表記に基づいて、前記仮
名漢字変換用辞書に登録された未知語データを抽出する
手段とを備えるものとしてもよい。
[0021] In the above-mentioned second dictionary management device, the dictionary is a morphological analysis dictionary that is referred to in a morphological analysis in which a Japanese character string is divided into phrases by the Japanese input device, A kana-kanji conversion dictionary referred to in the kana-kanji conversion, and the morphological analysis dictionary is a dictionary registered in association with unknown word data including pronunciation and kana-kanji mixed notation, and the kana-kanji conversion dictionary is A dictionary in which kana-kanji mixed notation is registered as an index using readings composed of kana characters, and the unknown word extracting means is configured to register the unknown word registered in the morphological analysis dictionary based on the kana-kanji mixed notation of the unknown word. Means for extracting data, and the kana-kanji conversion dictionary based on the pronunciation and kana-kanji mixed notation included in the extracted unknown word data. The recording is unknown word data to be as including means for extracting.

【0022】第1の辞書管理装置において説明したのと
同様、上記方法により未知語データを抽出するものとす
れば、未知語に複数の読みが与えられて登録され、未知
語データが仮名漢字変換辞書の数カ所に散在している場
合であっても、効率的に未知語を処理することができ
る。また、形態素解析辞書に登録された読みを媒介とし
て検索を行うため、形態素解析辞書のメモリ容量を節約
することもできる。
As described in the first dictionary management device, if the unknown word data is to be extracted by the above method, a plurality of readings are given to the unknown word and registered, and the unknown word data is converted to kana-kanji conversion. Even if it is scattered in several places in the dictionary, unknown words can be processed efficiently. Further, since the search is performed using the reading registered in the morphological analysis dictionary as a medium, the memory capacity of the morphological analysis dictionary can be saved.

【0023】以上に説明した本発明は、コンピュータを
用いて構成することが可能である。従って、本発明は、
以下に示す通り、コンピュータにより種々の機能を実現
するためのプログラムを記録した記録媒体としての態様
を採ることもできる。
The present invention described above can be implemented using a computer. Therefore, the present invention
As described below, an embodiment as a recording medium in which programs for realizing various functions by a computer are recorded can be adopted.

【0024】本発明の第1の記録媒体は、予め用意され
た辞書に存在しない未知語に関するデータを、所定の管
理データを含み得る未知語データとして追加登録可能に
構成されており、日本語文字列を入力する際に参照され
る辞書を、コンピュータにより管理するプログラムを記
録したコンピュータ読みとり可能な記録媒体であって、
前記辞書に追加登録された未知語のうち少なくとも一部
の未知語を選択する条件を、前記管理データに基づいて
特定する機能と、前記特定された管理データに対応する
未知語データを、前記辞書から抽出する未知語抽出機能
と、前記抽出された未知語データに対して所定の処理を
行う機能とをコンピュータにより実現するプログラムを
記録した記録媒体である。
The first recording medium of the present invention is configured so that data relating to unknown words that do not exist in a dictionary prepared in advance can be additionally registered as unknown word data that can include predetermined management data. A dictionary referred to when inputting a column, a computer-readable recording medium recording a program managed by the computer,
A function for specifying a condition for selecting at least a part of unknown words among the unknown words additionally registered in the dictionary, based on the management data, and unknown word data corresponding to the specified management data, And a function of performing a predetermined process on the extracted unknown word data by a computer.

【0025】なお、この記録媒体において、前記所定の
処理は、前記抽出された未知語データを前記辞書から削
除する処理であり、前記管理データは、前記辞書に登録
された各未知語データの参照状況を示すデータまたは各
未知語が前記辞書に登録された時期を示すデータである
プログラムを記録した記録媒体とすることが望ましい。
In this recording medium, the predetermined process is a process of deleting the extracted unknown word data from the dictionary, and the management data is a reference to each unknown word data registered in the dictionary. It is desirable to use a recording medium that records a program that is data indicating a situation or data indicating a time when each unknown word is registered in the dictionary.

【0026】また、この記録媒体は、前記未知語抽出機
能として、前記辞書を形成するデータのうち、前記管理
データ、読みおよび仮名漢字混じり表記を含む未知語デ
ータが関連付けて登録されており、日本語文字列を文節
に分かち書きする形態素解析において参照される形態素
解析用辞書に含まれるデータを操作する機能と、前記特
定された管理データに対応する未知語データを、前記形
態素解析用辞書から抽出する機能と、前記辞書を形成す
るデータのうち、仮名文字からなる読みをインデックス
として仮名漢字混じりの表記が登録されており、仮名漢
字変換において参照される仮名漢字変換用辞書に含まれ
るデータを操作する機能と、該抽出された未知語データ
に含まれる読みおよび仮名漢字混じり表記に基づいて、
前記仮名漢字変換用辞書に登録された未知語データを抽
出する機能とを有するプログラムを記録した記録媒体と
してもよい。
In this recording medium, among the data forming the dictionary, the management data, and the unknown word data including the kana-kanji mixed notation are registered as the unknown word extraction function. A function of operating data included in a morphological analysis dictionary referred to in a morphological analysis that separates word character strings into phrases, and extracting unknown word data corresponding to the specified management data from the morphological analysis dictionary. In the data forming the dictionary, the kana-kanji mixed notation is registered using the reading of kana characters as an index, and the data included in the kana-kanji conversion dictionary referred to in the kana-kanji conversion is operated. Function, based on the pronunciation and kana-kanji mixed notation included in the extracted unknown word data,
The recording medium may store a program having a function of extracting unknown word data registered in the kana-kanji conversion dictionary.

【0027】本発明の第2の記録媒体は、予め用意され
た辞書に存在しない未知語に関するデータを、未知語デ
ータとして追加登録可能に構成されており、日本語文字
列を入力する際に参照される辞書を、コンピュータによ
り管理するプログラムを記録したコンピュータ読みとり
可能な記録媒体であって、前記辞書に登録された一の未
知語について、前記日本語入力装置による仮名漢字変換
において入力された読みを検出する機能と、前記辞書か
ら、前記一の未知語に関する未知語データを抽出する未
知語抽出機能と、前記抽出された未知語データのうち、
前記検出された読みと異なる読みに対応するデータに対
し所定の処理を行う機能とをコンピュータにより実現す
るプログラムを記録した記録媒体である。
[0027] The second recording medium of the present invention is configured such that data relating to an unknown word that does not exist in a prepared dictionary can be additionally registered as unknown word data, and is referred to when a Japanese character string is input. Is a computer-readable recording medium on which a program managed by a computer is recorded, and reads, for one unknown word registered in the dictionary, a reading input in kana-kanji conversion by the Japanese input device. A function for detecting, from the dictionary, an unknown word extraction function for extracting unknown word data related to the one unknown word, among the extracted unknown word data,
A storage medium storing a program for realizing, by a computer, a function of performing predetermined processing on data corresponding to a reading different from the detected reading.

【0028】また、この記録媒体は、前記未知語抽出機
能として、前記辞書を形成するデータのうち、読みおよ
び仮名漢字混じり表記を含む未知語データが関連付けて
登録されており、日本語文字列を文節に分かち書きする
形態素解析において参照される形態素解析用辞書に含ま
れるデータを操作する機能と、未知語の仮名漢字混じり
表記に基づいて、前記形態素解析用辞書に登録された未
知語データを抽出する機能と、前記辞書を形成するデー
タのうち、仮名文字からなる読みをインデックスとして
仮名漢字混じりの表記が登録されており、仮名漢字変換
において参照される仮名漢字変換用辞書に含まれるデー
タを操作する機能と、該抽出された未知語データに含ま
れる読みおよび仮名漢字混じり表記に基づいて、前記仮
名漢字変換用辞書に登録された未知語データを抽出する
機能とを有するプログラムを記録した記録媒体としても
よい。
In this recording medium, as the unknown word extraction function, among the data forming the dictionary, unknown word data including readings and kana-kanji mixed notation are registered in association with each other, and Japanese character strings are registered. Extracts unknown word data registered in the morphological analysis dictionary based on the function of manipulating data contained in the morphological analysis dictionary referred to in the morphological analysis to be separated into phrases and the kana-kanji mixed notation of unknown words. In the data forming the dictionary, the kana-kanji mixed notation is registered using the reading of kana characters as an index, and the data included in the kana-kanji conversion dictionary referred to in the kana-kanji conversion is operated. The kana-kanji conversion dictionary based on the function and the kana-kanji mixed notation included in the extracted unknown word data. It may be a recording medium for recording a program and a function of extracting an unknown word data registered.

【0029】上述の各記録媒体に記録されたプログラム
がコンピュータにより実行され、それぞれの機能が実現
されると、先に説明した未知語登録装置を構成すること
ができる。
When the programs recorded on the recording media described above are executed by a computer to realize the respective functions, the unknown word registration device described above can be configured.

【0030】なお、記録媒体としては、フレキシブルデ
ィスクやCD−ROM、光磁気ディスク、ICカード、
ROMカートリッジ、パンチカード、バーコードなどの
符号が印刷された印刷物、コンピュータの内部記憶装置
(RAMやROMなどのメモリ)および外部記憶装置等
の、コンピュータが読取り可能な種々の媒体を利用でき
る。また、コンピュータに上記の発明の各工程または各
手段の機能を実現させるコンピュータプログラムを通信
経路を介して供給する態様、つまりプログラムをネット
ワーク上のサーバなどに置き、通信経路を介して、必要
なプログラムをコンピュータにダウンロードし、これを
実行する態様を採るものとしてもよい。
As a recording medium, a flexible disk, a CD-ROM, a magneto-optical disk, an IC card,
Various computer-readable media such as a ROM cartridge, a punched card, a printed matter on which a code such as a barcode is printed, an internal storage device (memory such as RAM and ROM) and an external storage device of the computer can be used. In addition, an aspect in which a computer program for causing a computer to realize the functions of each step or each unit of the above invention is supplied via a communication path, that is, the program is placed on a server or the like on a network, and a necessary program is provided via the communication path. May be downloaded to a computer and executed.

【0031】[0031]

【発明の実施の形態】以下本発明の実施の形態について
実施例に基づいて説明する。図1は、本実施例の辞書管
理装置を含む日本語入力装置の制御ロジックを示すブロ
ック図、図2は、この日本語入力装置のハードウェアを
示すブロック図である。説明の便宜上、まずハードウェ
アの概略構成を図2を用いて説明する。
DESCRIPTION OF THE PREFERRED EMBODIMENTS Embodiments of the present invention will be described below based on examples. FIG. 1 is a block diagram showing control logic of a Japanese input device including the dictionary management device of the present embodiment, and FIG. 2 is a block diagram showing hardware of the Japanese input device. First, a schematic configuration of hardware will be described with reference to FIG. 2 for convenience of description.

【0032】(1)実施例の概略構成 図2に示すように、日本語入力装置の内部では、CPU
20、ROM22、RAM24、ハードディスク26、
CD−ROMドライブ27がバス38により相互に接続
されている。また、このバス38には、入出力ポート2
8も接続されている。入出力ポート28には、入出力装
置として、キーボード30、マウス31、CRTディス
プレイ32、プリンタ34、スキャナ36がそれぞれ接
続されている。なお、CD−ROMドライブ27はプロ
グラムが格納された記録媒体に応じた記録媒体読みとり
装置とすることができる。例えば、記録媒体として、い
わゆるフロッピーディスクを用いる場合には、CD−R
OMドライブ27に代えて、またはCD−ROMドライ
ブ27とともにフロッピーディスクドライブをバス38
に接続するものとしてもよい。また、入出力ポート28
には、モデム39が接続され、更に公衆電話回線を介し
て外部のネットワークNWに接続されている。従って、
日本語入力装置は、同じく外部のネットワークNWに接
続されたサーバSVから、必要なプログラムやデータを
ハードディスク26にダウンロードすることができる。
(1) Schematic Configuration of the Embodiment As shown in FIG.
20, ROM 22, RAM 24, hard disk 26,
The CD-ROM drives 27 are interconnected by a bus 38. The bus 38 has an input / output port 2
8 is also connected. A keyboard 30, a mouse 31, a CRT display 32, a printer 34, and a scanner 36 are connected to the input / output port 28 as input / output devices. The CD-ROM drive 27 can be a recording medium reading device corresponding to a recording medium in which a program is stored. For example, when a so-called floppy disk is used as a recording medium, a CD-R
Instead of the OM drive 27 or together with the CD-ROM drive 27, a floppy disk drive
May be connected. Also, the input / output port 28
Is connected to an external network NW via a public telephone line. Therefore,
The Japanese input device can download necessary programs and data to the hard disk 26 from the server SV also connected to the external network NW.

【0033】上記CPU20は周知のものであり、RO
M22は基本ソフトウェア等を記憶するマスクメモリ、
RAM24は主記憶を構成する読み出しおよび書き込み
が可能なメモリである。また、ハードディスク26には
RAM24にロードされて実行される仮名漢字変換プロ
グラムその他の各種プログラムや、そのプログラムが参
照する各種変換辞書などが記憶されている。なお、仮名
漢字変換プログラムは、ROM22に記憶しておくもの
としてもよいし、CD−ROMに記憶しておきCD−R
OMドライブ27を介してRAM24に読み込むものと
してもよい。また、サーバSVからハードディスク26
にダウンロードするものとしてもよい。
The CPU 20 is a well-known CPU.
M22 is a mask memory for storing basic software, etc.
The RAM 24 is a readable and writable memory constituting a main memory. The hard disk 26 stores a kana-kanji conversion program and other various programs loaded and executed in the RAM 24, and various conversion dictionaries referred to by the program. The kana-kanji conversion program may be stored in the ROM 22 or may be stored in the CD-ROM and stored in the CD-R.
The data may be read into the RAM 24 via the OM drive 27. In addition, the server SV sends the hard disk 26
May be downloaded.

【0034】こうして構成されたハードウエアにより、
文章の入力,仮名漢字変換,編集,表示,印刷および辞
書の管理等の諸機能が実現される。文章の入力は、キー
ボード30から文字列の形でなされる場合もあれば、ス
キャナ36からイメージ情報として入力される場合もあ
る。こうして入力された文章は、CPU20により後述
する種々の処理がなされ、RAM24の所定領域に格納
され、CRT26の画面上に表示されたり、プリンタ3
4から出力されたりする。また、辞書を管理するための
種々の入力はキーボード30またはマウス31からなさ
れる。
With the hardware configured as described above,
Various functions such as text input, kana-kanji conversion, editing, display, printing, and dictionary management are realized. The text may be input from the keyboard 30 in the form of a character string, or may be input from the scanner 36 as image information. The sentence thus input is subjected to various processes described later by the CPU 20, stored in a predetermined area of the RAM 24, displayed on the screen of the CRT 26, and
4, etc. Various inputs for managing the dictionary are made from the keyboard 30 or the mouse 31.

【0035】次に、本実施例の日本語入力装置を機能ブ
ロックで捕らえた場合の各部分の働きを図1を用いて説
明する。図1に示した各機能ブロックのほとんどは、C
PU20がソフトウェアに基づいて実行するものであ
る。
Next, the function of each part when the Japanese input device of this embodiment is captured by functional blocks will be described with reference to FIG. Most of the functional blocks shown in FIG.
The PU 20 executes based on software.

【0036】入力部40には図2のキーボード30、マ
ウス31およびスキャナ36が相当し、日本語の文章の
入力および辞書を管理するためのコマンド等を入力す
る。まず、日本語の文章が入力された場合について説明
する。
The input unit 40 corresponds to the keyboard 30, the mouse 31, and the scanner 36 shown in FIG. 2, and inputs commands for inputting Japanese sentences and managing a dictionary. First, a case where a Japanese sentence is input will be described.

【0037】入力部40から入力された文章は、入出力
制御部46の制御の下、文字受取部48に送出される。
ここで、入出力制御部46は、例えばキーボード30の
操作がなされたとき、CPU20に所定の割り込み処理
をかけ、文字列の入力処理を実行する等の制御を行う。
また、スキャナ36から文章が入力される場合には、ス
キャナ36のドライバを起動する。
The text input from the input unit 40 is sent to the character receiving unit 48 under the control of the input / output control unit 46.
Here, when the keyboard 30 is operated, for example, the input / output control unit 46 performs a predetermined interrupt process on the CPU 20 to execute a character string input process.
When a text is input from the scanner 36, the driver of the scanner 36 is started.

【0038】こうして入力された文章は、形態素解析部
50により、形態素解析がなされる。形態素解析とは、
例えば「くるまではこをはこぶ」と入力された仮名文字
列を、辞書に登録された各単語の品詞情報等を参照する
ことで、「くるまで/はこを/はこぶ」と解析する処理
をいう。この際、形態素解析部50は、メモリ(ROM
22、RAM24、ハードディスク26)に記録された
形態素解析辞書62や仮名漢字変換辞書64を参照す
る。また、解析の途中経過として得られる文節候補や単
語候補をそれぞれ文節候補格納部54、単語候補格納部
58に送出し、RAM24に格納する。また、仮名文字
列が入力されている場合には、形態素解析部50は形態
素解析結果に基づいて、仮名漢字変換を実行する。
The sentence thus input is subjected to morphological analysis by the morphological analyzer 50. What is morphological analysis?
For example, it refers to a process of analyzing a kana character string input as "Kuru-Hakoko / Hakobu" as "Kuru-Hako / Hakobu" by referring to the part of speech information of each word registered in the dictionary. . At this time, the morphological analysis unit 50 stores in the memory (ROM
22, the RAM 24, the hard disk 26) and the morphological analysis dictionary 62 and the kana-kanji conversion dictionary 64. The phrase candidate and the word candidate obtained during the course of the analysis are sent to the phrase candidate storage unit 54 and the word candidate storage unit 58, respectively, and stored in the RAM 24. When a kana character string has been input, the morphological analysis unit 50 performs kana-kanji conversion based on the morphological analysis result.

【0039】なお、仮名漢字変換における形態素解析の
途中経過として得られ、文節候補格納部54、単語候補
格納部58に記憶されたそれぞれの候補は、入出力制御
部46を介して表示部44に表示される。これらの文字
列が所望の文字列でない可能性もあるため、形態素解析
部50は使用者による指示を受けて、次候補の表示や選
択などの処理を行う。図示していないが、これらの指示
や選択の結果などは、学習結果として格納されている。
The candidates obtained during the morphological analysis in the kana-kanji conversion and stored in the phrase candidate storage unit 54 and the word candidate storage unit 58 are sent to the display unit 44 via the input / output control unit 46. Is displayed. Since these character strings may not be the desired character strings, the morphological analysis unit 50 performs processing such as displaying and selecting the next candidate in response to an instruction from the user. Although not shown, the results of these instructions and selections are stored as learning results.

【0040】一方、形態素解析部50が文章の形態素解
析を終了した後は、その結果を形態素出力部52に送出
する。形態素出力部52は、さらに入出力制御部46を
介して出力部42または表示部44に結果を出力する。
出力部42には図2のプリンタ34が相当し、表示部4
4には図2のCRTディスプレイ32が相当する。な
お、出力部42には、入力された日本語文字列を他のア
プリケーションに出力する部分も相当する。
On the other hand, after the morphological analysis unit 50 completes the morphological analysis of the sentence, the result is sent to the morphological output unit 52. The morpheme output unit 52 further outputs the result to the output unit 42 or the display unit 44 via the input / output control unit 46.
The output unit 42 corresponds to the printer 34 of FIG.
4 corresponds to the CRT display 32 of FIG. The output unit 42 also corresponds to a part that outputs the input Japanese character string to another application.

【0041】形態素解析の結果は、形態素出力部52か
ら未知語抽出部56へも引き渡される。未知語抽出部5
6は、形態素解析結果に基づいて、形態素解析辞書62
および仮名漢字変換辞書64に存在しない未知語を抽出
する。こうして抽出された未知語は、未知語登録部60
に引き渡される。未知語登録部60は、各未知語につい
て品詞の判定等、所定の処理を行った上、形態素解析辞
書62または仮名漢字変換辞書64に未知語を登録す
る。
The result of the morphological analysis is also passed from the morphological output unit 52 to the unknown word extracting unit 56. Unknown word extraction unit 5
6 is a morphological analysis dictionary 62 based on the morphological analysis result.
An unknown word that does not exist in the kana-kanji conversion dictionary 64 is extracted. The unknown words thus extracted are stored in the unknown word registration unit 60.
Handed over to The unknown word registration unit 60 registers the unknown word in the morphological analysis dictionary 62 or the kana-kanji conversion dictionary 64 after performing a predetermined process such as the determination of the part of speech for each unknown word.

【0042】次に、辞書の管理を行う場合について説明
する。辞書の管理をするためのコマンドおよび未知語を
削除するための条件(以下、削除条件という)等は入力
部40から入力される。入力された削除条件は、入出力
制御部46の制御の下、削除条件受取部74に送出さ
れ、さらに未知語検索部76に送出される。未知語検索
部76は、形態素解析辞書62および仮名漢字変換辞書
64を検索し、入力された条件に該当する未知語データ
を抽出する。この結果は、未知語削除部72に送出され
る。未知語削除部72は、形態素解析辞書62および仮
名漢字変換辞書64にアクセスし、これらのデータを削
除する。形態素解析辞書62、仮名漢字変換辞書64、
未知語削除部72、未知語検索部76および削除条件受
取部74が辞書管理部70を構成し、本明細書における
辞書管理装置に対応する。
Next, a case where the dictionary is managed will be described. Commands for managing the dictionary, conditions for deleting unknown words (hereinafter referred to as deletion conditions), and the like are input from the input unit 40. The input deletion condition is sent to the deletion condition receiving unit 74 under the control of the input / output control unit 46, and further sent to the unknown word searching unit 76. The unknown word search unit 76 searches the morphological analysis dictionary 62 and the kana-kanji conversion dictionary 64 and extracts unknown word data corresponding to the input condition. This result is sent to unknown word deletion section 72. The unknown word deletion unit 72 accesses the morphological analysis dictionary 62 and the kana-kanji conversion dictionary 64 and deletes these data. Morphological analysis dictionary 62, kana-kanji conversion dictionary 64,
The unknown word deletion unit 72, the unknown word search unit 76, and the deletion condition receiving unit 74 constitute a dictionary management unit 70, and correspond to the dictionary management device in this specification.

【0043】(2)未知語登録処理 次に、本実施例における辞書管理装置が管理する形態素
解析辞書62および仮名漢字変換辞書64に登録される
未知語データの形式を明確にするために、日本語入力装
置が行う未知語の自動登録処理について図3を用いて説
明する。図3は未知語の自動登録処理の流れを示すフロ
ーチャートである。このルーチンは、図2に示したCP
U20により、日本語入力が実行されている最中に自動
的に行われる処理である。日本語入力が終了した後に、
所定のコマンドを入力することにより実行するものとし
てもよい。
(2) Unknown Word Registration Process Next, in order to clarify the format of unknown word data registered in the morphological analysis dictionary 62 and the kana-kanji conversion dictionary 64 managed by the dictionary management apparatus in this embodiment, An automatic registration process of an unknown word performed by the word input device will be described with reference to FIG. FIG. 3 is a flowchart showing the flow of the unknown word automatic registration process. This routine corresponds to the CP shown in FIG.
This is a process that is automatically performed by U20 while Japanese input is being performed. After Japanese input is finished,
It may be executed by inputting a predetermined command.

【0044】未知語自動登録ルーチンが開始されると、
CPU20は、文章入力を行い(ステップS100)、
形態素解析を実行する(ステップS200)。形態素解
析に関しては、例えば2文節を基本単位とし成り立ち得
る文節の中で最長の文節が得られる2文節を第1候補と
する2文節最長一致法等、種々の方法が知られている
が、本実施例では最小コスト法を用いている。最小コス
ト法とは、文節を構成する単語の候補となり得る単語お
よび単語同士の組合わせにコストを付け、この点数が所
定の条件を満たす文節を第1候補とする方法である。
When the unknown word automatic registration routine is started,
The CPU 20 inputs a sentence (step S100),
A morphological analysis is performed (step S200). Regarding morphological analysis, various methods are known, such as a two-phrase longest-matching method in which two phrases are used as a basic unit and the longest phrase is obtained as a first candidate. In the embodiment, the minimum cost method is used. The minimum cost method is a method in which a cost is assigned to a word that can be a candidate for a word constituting a phrase and a combination of words, and a phrase whose score satisfies a predetermined condition is set as a first candidate.

【0045】ここで、本実施例に使用されている形態素
解析の方法について、図4を用いて説明する。図4は形
態素解析ルーチンの流れを示すフローチャートである。
先に述べた通り、最小コスト法と呼ばれる手法により形
態素解析を行うルーチンである。この処理は、図1の機
能ブロックに基づけば、形態素解析部50が行うもので
ある。形態素解析部50は図2のCPU20の一処理機
能を機能ブロックとして説明したものであるため、CP
U20が形態素解析ルーチンを実行するといっても同じ
意味である。
Here, the morphological analysis method used in this embodiment will be described with reference to FIG. FIG. 4 is a flowchart showing the flow of the morphological analysis routine.
As described above, this is a routine for performing morphological analysis by a method called a minimum cost method. This processing is performed by the morphological analysis unit 50 based on the functional blocks in FIG. The morphological analysis unit 50 describes one processing function of the CPU 20 of FIG. 2 as a functional block.
It is the same meaning that U20 executes the morphological analysis routine.

【0046】図4に示す通り、CPU20は、まず一時
的に保存されたデータの消去や解析位置を1桁目に初期
化するなどの初期化(ステップS205)を行った後、
解析位置を求める処理を行う(ステップS210)。解
析位置とは、入力された文章について次に解析を行う位
置である。例えば、「くるまではこをはこぶ」という仮
名文字列が入力されているとすれば、最初の解析位置は
1桁目の「く」の位置であり、順次解析が進むにつれ
て、解析位置は「る」「ま」・・・と進む。この解析位
置で、CPU20はハードディスク26に記憶された形
態素解析辞書62および仮名漢字変換辞書64を検索す
る処理を行う(ステップS215)。先の例でいえば、
「く」という語を辞書から検索する。
As shown in FIG. 4, the CPU 20 first performs initialization (step S205) such as erasing temporarily stored data and initializing the analysis position to the first digit.
A process for obtaining an analysis position is performed (step S210). The analysis position is a position at which the input text is analyzed next. For example, assuming that a kana character string “Kuru wa Koko wa Kobu” is input, the first analysis position is the position of the first digit “ku”, and as the analysis proceeds, the analysis position becomes “ru”. "Ma" ... At this analysis position, the CPU 20 performs a process of searching the morphological analysis dictionary 62 and the kana-kanji conversion dictionary 64 stored in the hard disk 26 (step S215). In the previous example,
Search the dictionary for the word "ku".

【0047】辞書の検索を行った後、得られた単語につ
いてそれ以前の単語との結合をチェックする処理を行い
(ステップS220)、単語間の結合がありえない場合
には、該単語は無効として、更に辞書を検索する。例え
ば、先の例文(「くるまではこをはこぶ」)中の「こを
はこぶ」の「は」について形態素解析辞書62から検索
された係助詞の「は」は、そのなど直前の格助詞「を」
との結合がありえないと判断されるから無効なデータと
して扱われる。なお、図1のブロック図では示していな
いが、単語間の結合は品詞に応じて結合の可能性を示す
テーブルとしてメモリ(RAM24、ROM22、ハー
ドディスク26)内に記憶されている。一つの解析位置
での辞書検索と結合チェックが終われば、解析位置を順
に進めて更に処理を繰り返す。
After the dictionary is searched, the obtained word is checked for a connection with the previous word (step S220). If there is no connection between words, the word is invalidated. Further, the dictionary is searched. For example, in the previous example sentence (“Kuru-hanko-ko-kobu-bu”), “ha” of “ko-wo-ko-kobu” is searched for from the morphological analysis dictionary 62. "
Since it is determined that there is no possibility of combining with, it is treated as invalid data. Although not shown in the block diagram of FIG. 1, the connection between words is stored in a memory (RAM 24, ROM 22, hard disk 26) as a table indicating the possibility of connection depending on the part of speech. When the dictionary search and the connection check at one analysis position are completed, the analysis positions are sequentially advanced and the process is repeated.

【0048】結合の可能性のある単語については、CP
U20はコスト計算を行い、その語の最小総コストを求
める処理を行い、(ステップS225)、不適切なコス
トのものを無効とする処理を行う(ステップS23
0)。これは、ある語の組み合わせについて自立語=
2、付属語=0のコストを持つものと定義して解析位置
までの総コストを計算し、他の語の組合わせと比べて大
きい不適切なコストの組み合わせは無効とする処理であ
る。先に示した例に基づいて説明すると、例文(「くる
まではこをはこぶ」)中の「くるま」は、「く」+
「る」+「ま」、「くる」+「ま」、「くるま」等種々
の語の組み合わせに分けることができる。これらの各組
み合わせについて単語を当てはめてコストを計算する。
「く」+「る」に対し、「苦」(自立語)+「流」(自
立語)という単語を当てはめれば、「流」はコスト4と
なる。一方、「くる」に対し「来る」(自立語)という
単語を当てはめれば、コスト2となる。最小コスト法
は、こうして求められたコストが最小となる組み合わせ
を採用するものであるため、この場合には、「来る」を
採用することになる。かかる解析を続けていけば、「く
るま」については、「車」(自立語)がコスト2で最小
コストとなる。
For words that may be combined, see CP
U20 performs cost calculation, performs processing for obtaining the minimum total cost of the word (step S225), and performs processing for invalidating an inappropriate cost (step S23).
0). This is independent word =
2. This is a process in which the total cost up to the analysis position is calculated by defining it as having an attached word = 0 cost, and an inappropriate combination of costs that is larger than the combination of other words is invalidated. Explaining based on the example shown above, the "car" in the example sentence ("cars up to car") is "ku" +
It can be divided into various word combinations such as "ru" + "ma", "kuru" + "ma", "car". The cost is calculated by applying a word to each of these combinations.
If the word “bit” (independent word) + “style” (independent word) is applied to “ku” + “ru”, “style” has a cost of 4. On the other hand, if the word “kuru” (independent word) is applied to “kuru”, cost 2 is obtained. Since the minimum cost method employs a combination that minimizes the cost thus obtained, “coming” is employed in this case. If such analysis is continued, the cost of “car” (independent word) is “2” and the minimum cost is “car”.

【0049】また、「くるまで」について考えれば、
「車」(自立語)+「で」(付属語)であるため、
「で」のコストは「車で」の総コストに相当するコスト
2となる。同様に「来る」(自立語)+「まで」(付属
語)なる結果を考えれば、「まで」もコスト2となる。
こうして得られた文節候補およびそのコストは、文節候
補格納部54(図1)に記憶される。
Also, if we think about "until it comes,"
Because it is "car" (independent word) + "de" (attached word)
The cost of “de” is cost 2 corresponding to the total cost of “by car”. Similarly, considering the result of “to come” (independent word) + “to” (attached word), “to” also has a cost of 2.
The phrase candidates thus obtained and their costs are stored in the phrase candidate storage unit 54 (FIG. 1).

【0050】次に、こうしてコストが与えられた単語候
補をリンクする処理を行う(ステップS235)。即
ち、結合が有効とされた語について、ポインタを設定す
ることで、その結合を関係づける。上述の例文中「くる
まで」について説明すれば、「車/で」および「来る/
まで」に対し最小総コストの計算がなされたから、「来
る」については「まで」にリンクし、「車」については
「で」にリンクするというように関係づけるのである。
こうした結合チェックやコスト計算、そしてリンクづけ
の処理を、一つの解析位置で総ての単語の検索が完了す
るまで繰り返す。また、その解析位置での辞書の検索が
完了すると、更に解析位置を一つ進めて、新たな単語の
成立を検討し、同様に結合チェックやコスト計算などを
繰り返す。
Next, a process of linking the word candidates to which the cost has been given in this way is performed (step S235). That is, by setting a pointer for a word for which the combination is valid, the combination is related. In the above example sentence, "to come" is described as "car / in" and "come /
Since the minimum total cost was calculated for "to", "coming" is linked to "to", and "car" is linked to "de".
The processing of such connection check, cost calculation, and linking is repeated until all words have been searched at one analysis position. When the dictionary search at the analysis position is completed, the analysis position is further advanced by one, the establishment of a new word is examined, and the connection check and cost calculation are repeated in the same manner.

【0051】解析位置が、既に入力された最後の仮名文
字の位置に至り、全語について解析が完了した場合には
(ステップS240)、以上の処理を前提として、最小
コストのパスを検索する処理を行う(ステップS24
5)。これは、有効とされた語の組合わせのなかで、語
に付与されたコストの総和が最小になるものを検索する
処理である。「くるまではこをはこぶ」の例では、「車
(2)/で(2)/箱(4)/を(4)/運ぶ(6)」
という分かち書きが総コスト18で最小コストとなる。
なお、かっこ書きの数字は各単語のコストを意味する。
When the analysis position has reached the position of the last kana character already input and the analysis has been completed for all words (step S240), the processing for searching for the path with the minimum cost is performed based on the above processing. (Step S24)
5). This is a process of searching for a combination of validated words that minimizes the sum of costs assigned to the words. In the example of "Have a car until coming", "car (2) / in (2) / box (4) / (4) / carry (6)"
Is the minimum cost with a total cost of 18.
The numbers in parentheses indicate the cost of each word.

【0052】このとき、最小コストではないが、他の文
節分かち書きの候補も検索される。例えば、「車(2)
/で(2)/は(2)/子(4)/を(4)/運ぶ
(6)」という分かち書き(コスト=20)である。こ
うして分かち書きの候補を作成した後(ステップS25
0)、今度は各文節の内部での候補を作成する処理を行
う(ステップS255)。即ち、ひとつの文節分かち書
きの内部で、例えば「はこを」に対して「箱を」や「函
を」といった候補を用意するのである。これらの文節の
候補や単語の候補は、使用者により文節の分け方をかえ
るよう指示されたり、次候補を表示するよう指示された
場合に使用される。
At this time, although not the minimum cost, another segmentation candidate is also searched. For example, "car (2)
// (2) / is (2) / child (4) / (4) / carry (6) ". After creating the candidate for the segmentation in this way (step S25
0) This time, a process of creating a candidate inside each phrase is performed (step S255). That is, for example, candidates for "box" and "box" are prepared for "hakowo" within one segment break. These phrase candidates and word candidates are used when the user instructs to change the way of segmentation or instructs to display the next candidate.

【0053】以上では、仮名文字列が入力された場合を
例にとって、形態素解析ルーチンを説明したが、カタカ
ナ、漢字、英字、数字等が混じった文章についての形態
素解析も同様の処理である。上記説明から明らかな通
り、形態素解析においては、辞書検索(ステップS21
5)が重要な役割を有する。
In the above, the morphological analysis routine has been described by taking as an example the case where a kana character string is input. However, morphological analysis of a sentence containing katakana, kanji, alphabetic characters, numerals, and the like is the same processing. As is clear from the above description, in the morphological analysis, a dictionary search (step S21)
5) has an important role.

【0054】形態素解析が終了すると、CPU20は次
のステップに進み、未知語抽出処理を実行する(ステッ
プS300)。これは、形態素解析の結果に基づいて、
辞書に存在しなかった単語を、入力された文章から抽出
する処理である。なお、入力された文字列には、形態素
解析ルーチンによらずに、所定の操作をすることによ
り、平仮名表記またはカタカナ表記等のまま入力が確定
されることもあり、かかる単語についても辞書に存在し
ないものは未知語として抽出されることになる。
When the morphological analysis is completed, the CPU 20 proceeds to the next step and executes an unknown word extraction process (step S300). This is based on the result of the morphological analysis,
This is a process of extracting words that did not exist in the dictionary from the input text. In addition, the input character string may be determined in hiragana or katakana notation by performing a predetermined operation without depending on the morphological analysis routine, and such a word is also present in the dictionary. Those that do not are extracted as unknown words.

【0055】未知語抽出処理が終了すると、未知語の品
詞を推定する未知語品詞推定処理を行い(ステップS4
00)、未知語に対し、辞書に登録する読みを作成する
見出し作成処理を行う(ステップS500)。この際、
未知語が漢字からなる語である場合には、見出し作成処
理では該漢字の読みの組み合わせに基づいて複数の読み
を生成する。例えば、漢字2文字からなる未知語であれ
ば、「音読み−音読み」、「訓読み−訓読み」、「音読
み−訓読み」、「訓読み−音読み」の4つの読みを生成
する。漢字3文字からなる未知語の場合には、更に組み
合わせが増えることになる。また、未知語の一部が辞書
に存在する場合には、その読みを利用しつつ読みを生成
する。例えば、「誕生日」が未知語として抽出され、
「誕生(たんじょう)」が辞書に存在する場合には、
「日」の部分のみを種々の読みに変更し、「たんじょう
び」、「たんじょうひ」、「たんじょうにち」という読
みを生成する。
When the unknown word extraction processing is completed, an unknown word part of speech estimation processing for estimating the part of speech of the unknown word is performed (step S4).
00), a heading creation process for creating a reading to be registered in the dictionary is performed on the unknown word (step S500). On this occasion,
If the unknown word is a word consisting of kanji, the heading creation process generates a plurality of readings based on a combination of readings of the kanji. For example, in the case of an unknown word composed of two Chinese characters, four readings of “on-reading-on-reading”, “kun-reading-on-reading”, “on-reading-on-reading”, and “kun reading-on-reading” are generated. In the case of an unknown word consisting of three Chinese characters, the number of combinations will further increase. If a part of the unknown word exists in the dictionary, the pronunciation is generated using the pronunciation. For example, "birthday" is extracted as an unknown word,
If "Birthday" exists in the dictionary,
Only the "day" part is changed to various readings, and the readings "tanjo", "tanjohi", and "tanjo ni" are generated.

【0056】以上の手順により、未知語の読みを生成し
た後、未知語を仮名漢字変換辞書64および形態素解析
辞書62に登録する(ステップS600、S700)。
これらの登録順序は、いずれが先であっても構わない
し、同時に行うものとしてもよい。
After the reading of the unknown word is generated by the above procedure, the unknown word is registered in the kana-kanji conversion dictionary 64 and the morphological analysis dictionary 62 (steps S600, S700).
Any of these registration orders may be performed first or may be performed simultaneously.

【0057】ここで、仮名漢字変換辞書64とは、仮名
漢字変換において使用される辞書をいい、入力された仮
名文字列をインデックスとして仮名漢字混じり(英字、
数字、記号混じりも含まれる)の表記データを対応させ
るための辞書である。先に説明した見出し作成処理にお
いて未知語の読みが複数生成されている場合には、仮名
漢字変換辞書には、それら全ての読みをインデックスと
して未知語が対応できるように未知語が登録される。従
って、仮名漢字変換辞書64では、一の未知語に対応す
るデータが数カ所に関連づけられずに登録され得る(図
7参照)。
Here, the kana-kanji conversion dictionary 64 refers to a dictionary used in kana-kanji conversion, and uses an input kana character string as an index to mix kana-kanji characters (English characters,
(Including a mixture of numbers and symbols). When a plurality of readings of an unknown word are generated in the above-described headline creation process, the unknown word is registered in the kana-kanji conversion dictionary such that all the readings are used as an index so that the unknown word can be handled. Therefore, in the kana-kanji conversion dictionary 64, data corresponding to one unknown word can be registered without being associated with several places (see FIG. 7).

【0058】一方、形態素解析辞書62とは、先に説明
した形態素解析(ステップS200)において参照され
る辞書である。従って、形態素解析辞書62には、入力
された文字列が仮名漢字混じりである場合にも該文字列
をインデックスとして単語の品詞等が参照できるような
形式で、未知語が登録される(図7参照)。また、形態
素解析辞書62には、管理データを添付した形で未知語
が登録される。本実施例では、管理データとして、未知
語であることを意味するインデックス(図7の「*」記
号)、未知語の登録日および使用頻度を一緒に登録して
いる。なお、管理データは形態素解析辞書62のみなら
ず仮名漢字変換辞書64に登録するようにしてもよい。
On the other hand, the morphological analysis dictionary 62 is a dictionary referred to in the morphological analysis described above (step S200). Therefore, unknown words are registered in the morphological analysis dictionary 62 in such a format that the part of speech of a word can be referred to using the character string as an index even if the input character string is mixed with kana-kanji characters (FIG. 7). reference). Also, unknown words are registered in the morphological analysis dictionary 62 in a form in which management data is attached. In the present embodiment, as management data, an index (“*” symbol in FIG. 7) indicating that the word is an unknown word, a registration date and a use frequency of the unknown word are registered together. The management data may be registered not only in the morphological analysis dictionary 62 but also in the kana-kanji conversion dictionary 64.

【0059】(3)辞書管理処理 次に、本発明に特徴的な部分である辞書管理のための処
理について図5を用いて説明する。図5は、本発明の辞
書管理ルーチンの流れを示すフローチャートである。こ
のルーチンは、日本語入力とは別に、所定のコマンドを
入力することにより、図2に示したCPU20が実行す
るものである。もっとも、日本語入力の最中において所
定の操作をすることにより、CPU20が実行するもの
としてもよい。なお、以下では辞書管理のための処理の
内、未知語データの削除を例にとって説明する。
(3) Dictionary Management Processing Next, processing for dictionary management, which is a characteristic part of the present invention, will be described with reference to FIG. FIG. 5 is a flowchart showing the flow of the dictionary management routine of the present invention. This routine is executed by the CPU 20 shown in FIG. 2 by inputting a predetermined command separately from the Japanese input. However, the CPU 20 may execute the processing by performing a predetermined operation during Japanese input. In the following, an explanation will be given by taking an example of deleting unknown word data in the processing for managing the dictionary.

【0060】辞書管理ルーチンが開始されると、CPU
20は、削除すべき未知語を特定するための条件を入力
する削除削除条件入力画面を表示する(ステップS80
0)。削除条件入力画面の例を図6に示す。本実施例で
は、管理データに対応した削除条件として、未知語の一
括削除をするか否かの条件、未知語の登録日に基づく条
件、未知語の参照頻度に基づく条件が指定でき、その他
のデータに対応した削除条件として未知語の品詞に基づ
く条件が指定できるようになっている。これらの条件
は、入力されたすべての条件に該当する(いわゆるAN
D条件に該当する)未知語データのみを削除するものと
してもよいし、入力された条件に一部でも該当する(い
わゆるOR条件に該当する)未知語を削除するものとし
てもよい。また、上に挙げた条件の他、形態素解析辞書
62に登録される管理データに応じて、種々の条件によ
り削除できるようにしてもよいし、未知語を個々に指定
して削除できるようにしてもよい。
When the dictionary management routine is started, the CPU
20 displays a deletion deletion condition input screen for inputting a condition for specifying an unknown word to be deleted (step S80).
0). FIG. 6 shows an example of the deletion condition input screen. In the present embodiment, as a deletion condition corresponding to the management data, a condition as to whether or not batch deletion of unknown words, a condition based on a registration date of unknown words, and a condition based on reference frequency of unknown words can be designated. A condition based on the part of speech of an unknown word can be specified as a deletion condition corresponding to data. These conditions correspond to all input conditions (so-called AN
Only unknown word data (corresponding to the D condition) may be deleted, or unknown words that partially correspond to the input condition (corresponding to the so-called OR condition) may be deleted. In addition to the above-mentioned conditions, according to management data registered in the morphological analysis dictionary 62, deletion may be performed under various conditions, or unknown words may be individually specified and deleted. Is also good.

【0061】次に、CPU20は図6の入力画面におい
て、キーボード30またはマウス31により入力された
削除条件を読み込み(図5のステップS805)、この
条件に該当する未知語データを形態素解析辞書62から
検索する(ステップS810)。辞書に登録されている
未知語がこれらの削除条件に該当するか否かは、形態素
解析辞書62に登録されている管理データ等に基づいて
判断される。例えば、未知語の一括削除をする場合に
は、未知語であることを示すインデックス「*」記号が
添付されているデータを全て検索することになる。例え
ば、図7に示す例では、「誕生日」なる単語は、形態素
解析辞書62において「*」が添付されているため、未
知語であると判断されることになる。
Next, the CPU 20 reads the deletion condition input by the keyboard 30 or the mouse 31 on the input screen of FIG. 6 (step S805 of FIG. 5), and retrieves the unknown word data corresponding to this condition from the morphological analysis dictionary 62. A search is performed (step S810). Whether an unknown word registered in the dictionary satisfies these deletion conditions is determined based on management data or the like registered in the morphological analysis dictionary 62. For example, in the case of batch deletion of unknown words, all data to which an index “*” symbol indicating an unknown word is attached is searched. For example, in the example illustrated in FIG. 7, the word “birthday” is determined to be an unknown word because “*” is attached in the morphological analysis dictionary 62.

【0062】また、未知語には管理データとして登録日
を示すデータも添付されている。図7に示す例では、登
録日データとして「19970818」なる数が登録さ
れている。これは、「1997年8月18日」が登録日
であることを意味している。従って、削除条件として未
知語の登録日が指定された場合には、上記登録日データ
の値に基づいて削除条件に該当する未知語データを抽出
することになる。同様にして、未知語の参照頻度が指定
された場合にも、該当する未知語データの検索が可能で
ある。
Further, data indicating a registration date is also attached to the unknown word as management data. In the example shown in FIG. 7, the number “197070818” is registered as the registration date data. This means that “August 18, 1997” is the registration date. Therefore, when the registration date of the unknown word is specified as the deletion condition, the unknown word data corresponding to the deletion condition is extracted based on the value of the registration date data. Similarly, even when the reference frequency of an unknown word is specified, the corresponding unknown word data can be searched.

【0063】次に、CPU20は、形態素解析辞書62
の検索結果に基づいて、仮名漢字変換辞書64の検索を
行う(ステップS815)。形態素解析辞書62には、
未知語について全ての読みが登録されているため、ここ
に登録されている各読みをインデックスとして仮名漢字
変換辞書64を検索するのである。図7に示した例で
は、形態素解析辞書62で「誕生日」なる未知語が削除
すべき未知語として検索された場合、そこには、「たん
じょうび」「たんじょうひ」「たんじょうにち」なる読
みが登録されている。従って、次はこれら3種類の読み
に該当するデータを仮名漢字変換辞書64から検索する
のである。なお、読みが同じで仮名漢字混じり表記が異
なるデータ(例えば、登録された未知語「巻回(けんか
い)」に対し、「見解」等)を抽出することがないよ
う、仮名漢字変換辞書64の検索においては、読みだけ
でなく、仮名漢字混じり表記が形態素解析辞書62に登
録された表記と同じであるか否かも同時に判定してい
る。
Next, the CPU 20 executes the morphological analysis dictionary 62
A search of the kana-kanji conversion dictionary 64 is performed based on the search result (step S815). The morphological analysis dictionary 62 includes:
Since all the readings are registered for the unknown word, the kana-kanji conversion dictionary 64 is searched using each reading registered here as an index. In the example shown in FIG. 7, when the unknown word “birthday” is searched as an unknown word to be deleted in the morphological analysis dictionary 62, the words “tanjobi”, “tanjohihi”, and “tanjo niichi” are found there. Yomi is registered. Therefore, next, data corresponding to these three types of readings is searched from the kana-kanji conversion dictionary 64. It should be noted that the kana-kanji conversion dictionary 64 should be used so that data with the same pronunciation but different kana-kanji mixed notation (for example, “comment” for the registered unknown word “kenkai”) is not extracted. In the search, not only the reading but also whether or not the kana-kanji mixed notation is the same as the notation registered in the morphological analysis dictionary 62 is determined at the same time.

【0064】こうして、削除条件に該当する未知語デー
タを検索できた後、CPU20は、形態素解析辞書62
および仮名漢字変換辞書64からこれらのデータを削除
する(ステップS820)。なお、これらの未知語デー
タを辞書から一括で削除する他、削除の際に使用者に確
認をとるものとしてもよい。
After searching for the unknown word data corresponding to the deletion condition, the CPU 20 sets the morphological analysis dictionary 62
And these data are deleted from the kana-kanji conversion dictionary 64 (step S820). The unknown word data may be collectively deleted from the dictionary, or the user may be confirmed at the time of deletion.

【0065】かかる辞書管理装置によれば、使用者は、
未知語を削除する条件を特定することにより、容易に未
知語データを辞書から削除することができる。この結
果、辞書を容易に管理することができるため、不要な未
知語が辞書に多く登録され辞書の検索効率が低下する状
態を防止することができる。これは、ひいては日本語入
力装置の利便性を向上することにもなる。また、未知語
の登録日や未知語の参照状況に基づいて未知語を削除す
る条件を特定することができるため、使用者は各未知語
が不要なものであるか否かを客観的に判断することがで
きる。つまり、参照状況を示すデータが非常に低い回数
を示している未知語のみを削除することもできるし、登
録時期が非常に古い未知語のみを削除することもでき
る。また、両者を指定することにより登録時期が古く、
かつ参照状況が低い未知語のみを削除することもでき
る。
According to such a dictionary management device, the user:
By specifying conditions for deleting unknown words, unknown word data can be easily deleted from the dictionary. As a result, since the dictionary can be easily managed, it is possible to prevent a state in which unnecessary unknown words are registered in the dictionary a lot and the search efficiency of the dictionary is reduced. This, in turn, improves the convenience of the Japanese input device. In addition, since the conditions for deleting unknown words can be specified based on the registration date of unknown words and the reference status of unknown words, the user can objectively determine whether each unknown word is unnecessary. can do. In other words, it is possible to delete only unknown words whose data indicating the reference status indicates a very low number of times, or to delete only unknown words whose registration time is very old. Also, by specifying both, the registration time is old,
In addition, it is also possible to delete only unknown words whose reference status is low.

【0066】一方、上記辞書管理装置によれば、形態素
解析辞書62に登録された読みを介して仮名漢字変換辞
書64に登録された未知語データを検索する結果、未知
語に複数の読みが与えられて登録され、未知語データが
仮名漢字変換辞書64の数カ所に散在している場合であ
っても、効率的に未知語を削除することができる。上述
した形態素解析辞書62を介することなく仮名漢字変換
辞書64から未知語データを検索しようとすれば、仮名
漢字変換辞書64に含まれるデータを先頭から最後まで
一つ一つ検索していく必要が生じるからである。
On the other hand, according to the dictionary management apparatus, as a result of searching for unknown word data registered in the kana-kanji conversion dictionary 64 via the reading registered in the morphological analysis dictionary 62, a plurality of readings are given to the unknown word. Even if the unknown word data is scattered in several places in the kana-kanji conversion dictionary 64, the unknown word can be efficiently deleted. To search for unknown word data from the kana-kanji conversion dictionary 64 without going through the morphological analysis dictionary 62 described above, it is necessary to search the data contained in the kana-kanji conversion dictionary 64 one by one from the beginning to the end. This is because it occurs.

【0067】なお、以下に示す通り、日本語入力装置の
仮名漢字変換における表示との関係で、辞書管理ルーチ
ンを仮名漢字変換中に容易に起動できるものとしてもよ
い。例えば、仮名漢字変換において未知語をそれ以外の
単語(以下、既知語という)と明確に識別可能な形で表
示し、未知語が表示された場合には、所定のコマンドを
入力することにより、仮名漢字変換を一時中断して上記
辞書管理ルーチンが起動するものとしてもよい。
As described below, the dictionary management routine may be easily activated during the kana-kanji conversion in relation to the display in the kana-kanji conversion of the Japanese input device. For example, in the kana-kanji conversion, an unknown word is displayed in a form that can be clearly distinguished from other words (hereinafter, known words), and when the unknown word is displayed, by inputting a predetermined command, The kana-kanji conversion may be temporarily suspended to start the dictionary management routine.

【0068】例えば、仮名漢字変換において、図8の入
力画面(a)または入力画面(b)に示す通り、それぞ
れ「たんご」および「ふくご」なる仮名文字列が入力さ
れたとする。このとき、辞書データを参照すれば、
「*」なる記号が付されているか否かにより、「ふく
ご」なる語は未知語であり、「たんご」なる語は既知語
であることが分かる。従って、出力画面(a)および
(b)に示す通り、「単語」なる語は通常の表示がなさ
れ、「複語」なる未知語は枠囲みの表示がなされるよう
にする。なお、未知語の表示は、この他、文字の色やサ
イズ等を変えて表示するものとしてもよいし、アンダー
ラインやハッチング等を付すものとしてもよい。また、
複数の変換候補が表示される場合にも未知語については
既知語と識別可能な表示をするものとしてもよい。以上
に示した表示がなされた時に、所定のコマンドを入力す
ることにより、辞書管理ルーチンが起動できるようにす
るのである。コマンドとしては、キーボード30の所定
のファンクションキーを押すものとしてもよいし、マウ
ス31で所定のアイコンをクリックするものとしてもよ
い。
For example, in the kana-kanji conversion, it is assumed that kana character strings of "Tango" and "Fukugo" are input as shown in the input screen (a) or the input screen (b) of FIG. At this time, referring to the dictionary data,
It can be seen that the word "Fukugo" is an unknown word and the word "Tango" is a known word depending on whether or not the symbol "*" is attached. Therefore, as shown in the output screens (a) and (b), the word "word" is displayed normally, and the unknown word "compound" is displayed in a frame. In addition, the display of the unknown word may be performed by changing the color, size, etc. of the character, or may be provided with an underline, hatching, or the like. Also,
Even when a plurality of conversion candidates are displayed, an unknown word may be displayed so as to be distinguishable from a known word. By inputting a predetermined command when the above-mentioned display is made, the dictionary management routine can be started. As the command, a predetermined function key of the keyboard 30 may be pressed, or a predetermined icon may be clicked with the mouse 31.

【0069】このように未知語が識別可能な形で表示さ
れることにより、使用者は不要な未知語が登録されてい
る場合には、その存在に容易に気づくことができる。ま
た、かかる表示がされた時点で辞書管理機能が起動でき
るようにしておけば、不要な未知語データを削除し辞書
を管理する利便性が向上する。なお、この場合におい
て、所定のコマンドを入力することにより、識別可能に
表示された未知語を直ちに削除するものとしてもよい
し、辞書管理ルーチンが起動し、図6に示した削除条件
の入力画面が表示されるものとしてもよい。
By displaying the unknown word in an identifiable manner, the user can easily notice the presence of the unnecessary unknown word if it is registered. Also, if the dictionary management function can be activated at the time of such display, the convenience of deleting unnecessary unknown word data and managing the dictionary is improved. In this case, by inputting a predetermined command, the unknown word displayed identifiable may be immediately deleted, or the dictionary management routine is started, and the deletion condition input screen shown in FIG. 6 is displayed. May be displayed.

【0070】上述の例では、辞書管理の処理として未知
語の削除を例にとって説明したが、図5におけるステッ
プS820を置き換えることにより、種々の処理が可能
である。例えば、管理データ中にスキップフラグなるデ
ータを用意しておき、抽出された未知語データについ
て、このスキップフラグをオンにする処理を行うものと
してもよい。仮名漢字変換において辞書を検索する際
に、上記スキップフラグがオンになった単語は無視する
ようにしておけば、未知語データを擬似的に辞書から削
除することができる。かかる処理によれば、スキップフ
ラグをオフにすることにより、一旦削除した未知語デー
タを再度有効なデータとして辞書に復活することも可能
となる。
In the above example, the deletion of unknown words has been described as an example of dictionary management processing. However, various processing can be performed by replacing step S820 in FIG. For example, skip flag data may be prepared in the management data, and the process of turning on the skip flag may be performed on the extracted unknown word data. When searching the dictionary in the kana-kanji conversion, if the word for which the skip flag is turned on is ignored, unknown word data can be deleted from the dictionary in a pseudo manner. According to such processing, by turning off the skip flag, it is also possible to restore the once deleted unknown word data to the dictionary as valid data again.

【0071】また、他の処理として、抽出された未知語
データについて特定の管理データを初期化する処理を行
うものとしてもよい。例えば、未知語の参照状況を示す
データ(図7の頻度データ)を値0にするものとしても
よい。かかる処理は、登録された未知語データの必要性
を改めて客観的に評価したい場合等に有効となる。未知
語の参照状況を初期化した後、所定期間を経過した時点
で参照頻度が低い未知語データは必要性が低いデータで
あると考えられるからである。このように、管理データ
に基づいて未知語データを辞書から適切に抽出できるよ
うにしておけば、使用者の要望に応じた種々の処理を用
意することにより、辞書の管理を非常に効率良く行うこ
とができるようになる。
As another process, a process of initializing specific management data for the extracted unknown word data may be performed. For example, the data indicating the reference state of the unknown word (frequency data in FIG. 7) may be set to the value 0. This process is effective when the need for registered unknown word data is to be objectively evaluated again. This is because unknown word data having a low reference frequency is considered to be data of low necessity when a predetermined period has elapsed after initializing the reference state of unknown words. As described above, if the unknown word data can be appropriately extracted from the dictionary based on the management data, the dictionary can be managed very efficiently by preparing various processes according to the user's request. Will be able to do it.

【0072】(4)第2実施例としての辞書管理処理 次に、本発明の第2実施例としての辞書管理装置につい
て、未知語データを削除する場合を例にとって説明す
る。第2実施例の辞書管理装置のハードウェアの構成
は、先に説明した第1の実施例と概ね同じである(図
1、図2)。但し、図1の破線に示す通り、形態素解析
部50からも削除条件受取部74に対し、未知語の削除
条件が送出される点で第1の実施例と相違する。本実施
例においては、削除条件として、形態素解析部50から
削除条件受取部74に未知語の読みが送出される。
(4) Dictionary Management Process as Second Embodiment Next, a dictionary management device as a second embodiment of the present invention will be described with an example in which unknown word data is deleted. The hardware configuration of the dictionary management device of the second embodiment is almost the same as that of the first embodiment described above (FIGS. 1 and 2). However, as shown by the broken line in FIG. 1, the morphological analysis unit 50 differs from the first embodiment in that the deletion condition of unknown words is also sent to the deletion condition receiving unit 74. In this embodiment, the reading of the unknown word is transmitted from the morphological analysis unit 50 to the deletion condition receiving unit 74 as the deletion condition.

【0073】第2の実施例における辞書管理ルーチンの
流れを図9に示す。このルーチンは、使用者が所定のコ
マンドを入力しなくても、日本語入力の途中において未
知語が参照された場合にCPU20が自動的に実行する
ものである。もっとも、日本語入力の最中または日本語
入力が終了した後に、使用者が所定のコマンドを入力す
ることにより実行されるものとしてもよい。
FIG. 9 shows the flow of the dictionary management routine in the second embodiment. This routine is automatically executed by the CPU 20 even when the user does not input a predetermined command when an unknown word is referred to during Japanese input. However, it may be executed by the user inputting a predetermined command during or after the Japanese input.

【0074】辞書管理ルーチンが開始されると、CPU
20は日本語入力における仮名漢字変換で使用された未
知語の読みを検出する(ステップS900)。辞書管理
ルーチンが日本語入力の途中に実行された場合には、起
動時に入力されていた平仮名文字列を読み込む。また、
日本語入力が終了した後に実行された場合には、別途R
AM24またはハードディスク26に保存されているデ
ータから未知語の読みに相当するデータを読み込む。
When the dictionary management routine is started, the CPU
20 detects the reading of an unknown word used in kana-kanji conversion in Japanese input (step S900). If the dictionary management routine is executed in the middle of Japanese input, the hiragana character string input at the time of startup is read. Also,
If it is executed after Japanese input is finished, separate R
Data corresponding to reading an unknown word is read from the data stored in the AM 24 or the hard disk 26.

【0075】なお、一般に仮名漢字変換においては文字
列は文節単位またはそれ以上の長さで入力されるため、
未知語の読みを検出するためには、入力された文字列を
解析し、文節分かち書きする必要が生じる。文節分かち
書きは、先に図4を用いて説明した形態素解析ルーチン
によって実行される。
In general, in the kana-kanji conversion, a character string is inputted in a unit of a phrase or longer, so that
In order to detect the reading of an unknown word, it is necessary to analyze the input character string and write the phrase. The phrase segmentation is executed by the morphological analysis routine described above with reference to FIG.

【0076】次にCPU20は、形態素解析辞書62か
ら、仮名漢字変換で参照された未知語データを検索する
(ステップS905)。形態素解析辞書62は、未知語
の読みをインデックスとして検索するようにはできてい
ないため(図7参照)、このときは、参照された仮名漢
字表記の未知語に基づいて辞書の検索を行う。従って、
ステップS900とS905はいずれを先に実行するも
のとしてもよい。
Next, the CPU 20 searches the morphological analysis dictionary 62 for unknown word data referred to in the kana-kanji conversion (step S905). Since the morphological analysis dictionary 62 is not designed to search using the reading of an unknown word as an index (see FIG. 7), at this time, the dictionary is searched based on the referenced unknown word in kana-kanji notation. Therefore,
Either of steps S900 and S905 may be executed first.

【0077】もっとも、仮名漢字変換においては、仮名
漢字変換辞書64を参照しているため、仮名漢字変換辞
書64には、各データに対応する形態素解析辞書62中
のデータの存在位置を示すインデックスを付した形でデ
ータを登録するものとしてもよい。こうすることによ
り、ステップS905の処理を高速で実行することがで
きる。
Since the kana-kanji conversion dictionary refers to the kana-kanji conversion dictionary 64, the kana-kanji conversion dictionary 64 includes an index indicating the position of the data in the morphological analysis dictionary 62 corresponding to each data. The data may be registered in an attached form. By doing so, the processing in step S905 can be executed at high speed.

【0078】こうして形態素解析辞書62の検索がされ
ると、CPU20は、その未知語にステップS900で
検出した読み以外の読み(以下、「他の読み」という)
が登録されているか否かを判定する(ステップS91
0)。他の読みが登録されていない場合には、辞書から
削除すべき未知語データは存在しないと判断し、CPU
20は辞書管理ルーチンを一旦終了する。他の読みが登
録されている場合には、次のステップに進み、CPU2
0は仮名漢字変換辞書64の検索を実行する(ステップ
S915)。仮名漢字変換において入力された読み以外
の読みは誤った読みであると推定されるので、これらの
データを抽出し、削除するためである。
When the morphological analysis dictionary 62 is searched in this way, the CPU 20 reads the unknown word other than the reading detected in step S900 (hereinafter, referred to as “other reading”).
Is registered (step S91).
0). If no other reading is registered, it is determined that there is no unknown word data to be deleted from the dictionary,
20 temporarily ends the dictionary management routine. If another reading is registered, the process proceeds to the next step, and the CPU 2
0 executes a search of the kana-kanji conversion dictionary 64 (step S915). The readings other than the readings input in the kana-kanji conversion are presumed to be incorrect readings, so that these data are extracted and deleted.

【0079】ステップS910における判断について、
図7の具体例で説明する。仮名漢字変換において「たん
じょうび」なる読みが入力され、「誕生日」なる未知語
データが参照されたとする。形態素解析辞書62には、
「たんじょうび」なる読みの他「たんじょうひ」および
「たんじょうにち」なる読みが登録されている。従っ
て、先に説明した他の読みが登録されていることになる
ため、これらのデータを削除すべく、CPU20は仮名
漢字変換辞書の検索を行うことになる(ステップS91
5)。
Regarding the judgment in step S 910,
This will be described with a specific example of FIG. It is assumed that in the kana-kanji conversion, the reading "Tanjobi" is input and the unknown word data "Birthday" is referred to. The morphological analysis dictionary 62 includes:
In addition to the reading "Tanjobi", the readings "Tanjohi" and "Tanjohichi" are registered. Accordingly, since the other readings described above are registered, the CPU 20 searches the kana-kanji conversion dictionary to delete these data (step S91).
5).

【0080】仮名漢字変換辞書64の検索は、第1の実
施例における図5のステップS815で説明した方法と
同様である。但し、第2の実施例においては、仮名漢字
変換において入力された読み以外の読みに該当するデー
タのみが検出される。削除すべきデータは誤った読みと
して登録されているデータだからである。こうして未知
語データが検索されるとCPU20は、それらの未知語
データを削除する(ステップS920)。具体的には、
仮名漢字変換辞書64から上記検索されたデータを削除
するとともに、形態素解析辞書62から他の読みに該当
する読みデータを削除する。CPU20はこうして辞書
管理ルーチンを一旦終了する。
The search of the kana-kanji conversion dictionary 64 is the same as the method described in step S815 of FIG. 5 in the first embodiment. However, in the second embodiment, only data corresponding to a reading other than the reading input in the kana-kanji conversion is detected. This is because the data to be deleted is data registered as an incorrect reading. When the unknown word data is searched in this way, the CPU 20 deletes the unknown word data (step S920). In particular,
In addition to deleting the retrieved data from the kana-kanji conversion dictionary 64, the morphological analysis dictionary 62 deletes reading data corresponding to another reading. The CPU 20 once terminates the dictionary management routine.

【0081】未知語が複数の読みを与えられて辞書に自
動登録される場合には、推定された読みの一部は誤った
読みであると推定される。上記の辞書管理装置によれ
ば、このような誤った読みで登録された未知語データを
検出し、効率的に削除することができる。しかも、仮名
漢字変換において未知語データが参照された時点で自動
的に辞書の管理を実行するため、辞書管理における使用
者の負担は非常に小さくなる。また、未知語に対し自動
的に複数の読みが与えられて登録されている場合等、使
用者が何種類の読みでデータが登録されているかを知ら
ない場合でも、辞書の管理を効率的に行うことができ
る。さらに、第2実施例では、管理データが付されずに
未知語データが登録された辞書についても辞書の管理を
効率的に行うことができる点で第1実施例と相違する。
When an unknown word is given a plurality of readings and is automatically registered in a dictionary, it is presumed that some of the estimated readings are incorrect readings. According to the dictionary management device described above, unknown word data registered by such erroneous reading can be detected and efficiently deleted. In addition, since the dictionary management is automatically executed when the unknown word data is referred to in the kana-kanji conversion, the burden on the user in the dictionary management becomes very small. In addition, even if the user does not know how many readings the data is registered in, such as when multiple readings are automatically given and registered for unknown words, efficient dictionary management is possible. It can be carried out. Further, the second embodiment is different from the first embodiment in that the dictionary can be efficiently managed even for a dictionary in which unknown word data is registered without adding management data.

【0082】なお、未知語データを削除する際に、使用
者に確認をとるものとしてもよい。また、形態素解析辞
書62に登録された管理データを参照し、参照頻度が0
回である条件等、所定の条件を満足するデータのみを削
除するようにしてもよい。こうすることにより、複数の
読み方がある未知語(例えば、「内嵌」なる未知語には
「ないかん」と「うちばめ」の二通りの読み方が可能で
ある)について辞書の管理を適切に行うことができるよ
うになる。以上で説明した第2の辞書管理装置について
も、仮名漢字変換において未知語を他の語と識別可能に
表示した上で、所定のコマンドを入力することにより、
辞書管理ルーチンが起動するものとしてもよい。
When deleting unknown word data, confirmation may be made with the user. Also, the management data registered in the morphological analysis dictionary 62 is referred to, and the reference frequency is 0.
Only data that satisfies a predetermined condition, such as the condition of times, may be deleted. This makes it possible to properly manage dictionaries for unknown words that have multiple readings (for example, unknown words such as “inset” can be read in two ways, “Ikan” and “Uchibame”). Will be able to do it. The second dictionary management device described above also displays unknown words in kana-kanji conversion so that they can be distinguished from other words, and then inputs a predetermined command,
The dictionary management routine may be activated.

【0083】以上では、未知語データの削除を例にとっ
て説明したが、第1実施例における場合と同様、図9の
ステップS920を置き換えることにより、種々の処理
が可能である。つまり、先に述べたスキップフラグをオ
ンにすることにより、一部の読みデータを擬似的に辞書
から削除したり、該フラグをオフにすることにより、そ
の読みデータを有効なものとして辞書に復活したりする
ものとしてもよい。
In the above description, the deletion of unknown word data has been described as an example. However, various processes can be performed by replacing step S920 in FIG. 9 as in the first embodiment. That is, by turning on the skip flag described above, part of the read data is pseudo-deleted from the dictionary, or by turning off the flag, the read data is restored to the dictionary as valid. Or it may be done.

【0084】(5)辞書管理装置としての記録媒体 先に説明した辞書管理装置は、図5および図9に示した
種々の処理を図2に示したコンピュータ(特にCPU2
0)が実行することにより実現したものであるため、こ
れらの機能を実現するプログラムを記録した記録媒体に
よっても、未知語登録装置を実現することができる。こ
のような記録媒体としては、図5および図9に示した未
知語自動登録ルーチン全てを記録した記録媒体であって
もよいし、上記プログラムのうち入出力に関する機能等
の基本的な機能についてはコンピュータに別途備えられ
ている基本ソフトウェア(いわゆるBIOS等)を用い
るものとしてもよい。
(5) Recording Medium as Dictionary Management Apparatus The dictionary management apparatus described above performs the various processes shown in FIGS. 5 and 9 on the computer shown in FIG.
0) is realized by execution, and therefore, the unknown word registration device can also be realized by a recording medium on which a program for realizing these functions is recorded. Such a recording medium may be a recording medium in which all of the unknown word automatic registration routines shown in FIGS. 5 and 9 are recorded, and the basic functions such as input / output functions of the above programs are described. Basic software (so-called BIOS or the like) separately provided in the computer may be used.

【0085】なお、記録媒体としては、フレキシブルデ
ィスクやCD−ROM、光磁気ディスク、ICカード、
ROMカートリッジ、パンチカード、バーコードなどの
符号が印刷された印刷物、コンピュータの内部記憶装置
(RAMやROMなどのメモリ)および外部記憶装置等
の、コンピュータが読取り可能な種々の媒体を利用でき
る。また、コンピュータに上記の発明の各工程または各
手段の機能を実現させるコンピュータプログラムを通信
経路を介して供給する態様、つまり図2に示した様に、
プログラムをネットワークNW上のサーバSVなどに置
き、通信経路を介して、必要なプログラムをコンピュー
タにダウンロードし、これを実行する態様を採るものと
してもよい。
The recording medium may be a flexible disk, CD-ROM, magneto-optical disk, IC card,
Various computer-readable media such as a ROM cartridge, a punched card, a printed matter on which a code such as a barcode is printed, an internal storage device (memory such as RAM and ROM) and an external storage device of the computer can be used. In addition, an aspect in which a computer program that causes a computer to realize the functions of each step or each means of the above-described invention via a communication path, that is, as shown in FIG.
The program may be placed in a server SV or the like on the network NW, and the necessary program may be downloaded to a computer via a communication path and executed.

【0086】以上、本発明の種々の実施例について説明
してきたが、本発明はこれらに限定されるものではな
く、その要旨を逸脱しない範囲で、種々の形態による実
施が可能である。
Although various embodiments of the present invention have been described above, the present invention is not limited to these embodiments, and various embodiments can be implemented without departing from the gist of the present invention.

【図面の簡単な説明】[Brief description of the drawings]

【図1】本実施例の未知語登録装置を含む日本語入力装
置の制御ロジックを示すブロック図である。
FIG. 1 is a block diagram showing control logic of a Japanese input device including an unknown word registration device of the present embodiment.

【図2】日本語入力装置のハードウェアを示すブロック
図である。
FIG. 2 is a block diagram illustrating hardware of the Japanese input device;

【図3】未知語自動登録ルーチンの流れを示すフローチ
ャートである。
FIG. 3 is a flowchart showing a flow of an unknown word automatic registration routine.

【図4】形態素解析ルーチンの流れを示すフローチャー
トである。
FIG. 4 is a flowchart showing a flow of a morphological analysis routine.

【図5】辞書管理ルーチンの流れを示すフローチャート
である。
FIG. 5 is a flowchart showing the flow of a dictionary management routine.

【図6】削除条件入力画面の例を示す説明図である。FIG. 6 is an explanatory diagram showing an example of a deletion condition input screen.

【図7】辞書に登録された未知語データの検索方法を示
す説明図である。
FIG. 7 is an explanatory diagram showing a method of searching for unknown word data registered in a dictionary.

【図8】未知語の表示例を示した説明図である。FIG. 8 is an explanatory diagram showing a display example of an unknown word.

【図9】第2実施例の辞書管理ルーチンの流れを示すフ
ローチャートである。
FIG. 9 is a flowchart illustrating a flow of a dictionary management routine according to the second embodiment.

【符号の説明】[Explanation of symbols]

20・・・CPU 22・・・ROM 24・・・RAM 26・・・ハードディスク 27・・・CD−ROMドライブ 28・・・入出力ポート 30・・・キーボード 31・・・マウス 32・・・CRTディスプレイ 34・・・プリンタ 36・・・スキャナ 38・・・バス 39・・・モデム 40・・・入力部 42・・・出力部 44・・・表示部 46・・・入出力制御部 48・・・文字受取部 50・・・形態素解析部 52・・・形態素出力部 54・・・文節候補格納部 56・・・未知語抽出部 58・・・単語候補格納部 60・・・未知語登録部 62・・・形態素解析辞書 64・・・仮名漢字変換辞書 70・・・辞書管理部 72・・・未知語削除部 74・・・削除条件受取部 76・・・未知語検索部 Reference Signs List 20 CPU 22 ROM 24 RAM 26 Hard disk 27 CD-ROM drive 28 Input / output port 30 Keyboard 31 Mouse 32 CRT Display 34 ... Printer 36 ... Scanner 38 ... Bus 39 ... Modem 40 ... Input unit 42 ... Output unit 44 ... Display unit 46 ... Input / output control unit 48 ... Character receiving unit 50: morphological analysis unit 52: morphological output unit 54: phrase candidate storage unit 56: unknown word extraction unit 58: word candidate storage unit 60: unknown word registration unit 62 morphological analysis dictionary 64 kana-kanji conversion dictionary 70 dictionary management unit 72 unknown word deletion unit 74 deletion condition receiving unit 76 unknown word search unit

Claims (12)

【特許請求の範囲】[Claims] 【請求項1】 日本語文字列を入力する日本語入力装置
において参照される辞書を管理する辞書管理装置であっ
て、 予め用意された辞書に存在しない未知語に関するデータ
を、所定の管理データを含み得る未知語データとして追
加登録可能な辞書と、 前記辞書に追加登録された未知語のうち少なくとも一部
の未知語を選択する条件を、前記管理データに基づいて
特定する未知語検索条件特定手段と、 前記特定された管理データに対応する未知語データを、
前記辞書から抽出する未知語抽出手段と、 前記抽出された未知語データに対して所定の処理を行う
未知語処理手段とを備える辞書管理装置。
1. A dictionary management device for managing a dictionary referred to in a Japanese input device for inputting a Japanese character string, wherein data relating to unknown words that do not exist in a prepared dictionary is stored in a predetermined management data format. A dictionary that can be additionally registered as unknown word data that can be included, and an unknown word search condition specifying unit that specifies, based on the management data, a condition for selecting at least some unknown words among the unknown words additionally registered in the dictionary. And unknown word data corresponding to the specified management data,
A dictionary management device comprising: an unknown word extracting unit that extracts from the dictionary; and an unknown word processing unit that performs a predetermined process on the extracted unknown word data.
【請求項2】 請求項1の辞書管理装置であって、 前記未知語処理手段は、前記所定の処理として、前記抽
出された未知語データを前記辞書から削除する処理を行
う手段であり、 前記管理データは、前記辞書に登録された各未知語デー
タの参照状況を示すデータまたは各未知語が前記辞書に
登録された時期を示すデータである辞書管理装置。
2. The dictionary management apparatus according to claim 1, wherein the unknown word processing unit is configured to perform, as the predetermined process, a process of deleting the extracted unknown word data from the dictionary. The dictionary management device, wherein the management data is data indicating a reference status of each unknown word data registered in the dictionary or data indicating a time when each unknown word is registered in the dictionary.
【請求項3】 請求項1記載の辞書管理装置であって、 前記辞書は、日本語文字列を文節に分かち書きする形態
素解析において参照される形態素解析用辞書と、仮名漢
字変換において参照される仮名漢字変換用辞書を有し、 該形態素解析用辞書は、前記管理データ、読みおよび仮
名漢字混じり表記を含む未知語データを関連付けて登録
した辞書であり、 該かな漢字変換用辞書は、仮名文字からなる読みをイン
デックスとして仮名漢字混じりの表記を登録した辞書で
あり、 前記未知語抽出手段は、 前記特定された管理データに対応する未知語データを、
前記形態素解析用辞書から抽出する手段と、 該抽出された未知語データに含まれる読みおよび仮名漢
字混じり表記に基づいて、前記仮名漢字変換用辞書に登
録された未知語データを抽出する手段を備える辞書管理
装置。
3. The dictionary management device according to claim 1, wherein the dictionary is a morphological analysis dictionary referred to in a morphological analysis that separates a Japanese character string into phrases, and a kana referred to in a kana-kanji conversion. A dictionary for kanji conversion, wherein the morphological analysis dictionary is a dictionary in which the management data, reading and unknown word data including kana-kanji mixed notation are associated and registered, and the kana-kanji conversion dictionary is composed of kana characters. A dictionary in which kana-kanji mixed notation is registered with the reading as an index, wherein the unknown word extraction means includes an unknown word data corresponding to the specified management data,
Means for extracting from the morphological analysis dictionary, and means for extracting unknown word data registered in the kana-kanji conversion dictionary based on the pronunciation and kana-kanji mixed notation included in the extracted unknown word data Dictionary management device.
【請求項4】 日本語文字列を入力する日本語入力装置
において参照される辞書を管理する辞書管理装置であっ
て、 予め用意された辞書に存在しない未知語に関するデータ
を未知語データとして追加登録可能な辞書と、 前記辞書に登録された一の未知語について、前記日本語
入力装置による仮名漢字変換において入力された読みを
検出する読み検出手段と、 前記辞書から、前記一の未知語に関する未知語データを
抽出する未知語抽出手段と、 前記抽出された未知語データのうち、前記検出された読
みと異なる読みに対応するデータに対して所定の処理を
行う未知語処理手段とを備える辞書管理装置。
4. A dictionary management device for managing a dictionary referred to in a Japanese input device for inputting a Japanese character string, wherein data relating to an unknown word that does not exist in a previously prepared dictionary is additionally registered as unknown word data. A possible dictionary, reading detection means for detecting a reading input in the kana-kanji conversion by the Japanese input device for one unknown word registered in the dictionary, and an unknown word related to the one unknown word from the dictionary. Dictionary management, comprising: unknown word extraction means for extracting word data; and unknown word processing means for performing a predetermined process on data corresponding to a reading different from the detected reading among the extracted unknown word data. apparatus.
【請求項5】 請求項4記載の辞書管理装置であって、 前記辞書は、前記日本語入力装置により日本語文字列を
文節に分かち書きする形態素解析において参照される形
態素解析用辞書と、前記日本語入力装置による仮名漢字
変換において参照される仮名漢字変換用辞書とを有し、 該形態素解析用辞書は、読みおよび仮名漢字混じり表記
を含む未知語データを関連付けて登録した辞書であり、 該かな漢字変換用辞書は、仮名文字からなる読みをイン
デックスとして仮名漢字混じりの表記を登録した辞書で
あり、 前記未知語抽出手段は、 未知語の仮名漢字混じり表記に基づいて、前記形態素解
析用辞書に登録された未知語データを抽出する手段と、 該抽出された未知語データに含まれる読みおよび仮名漢
字混じり表記に基づいて、前記仮名漢字変換用辞書に登
録された未知語データを抽出する手段とを備える辞書管
理装置。
5. The dictionary management device according to claim 4, wherein the dictionary is a morphological analysis dictionary that is referred to in a morphological analysis in which a Japanese character string is segmented into phrases by the Japanese input device. A kana-kanji conversion dictionary referred to in kana-kanji conversion by the word input device, wherein the morphological analysis dictionary is a dictionary registered in association with unknown word data including readings and kana-kanji mixed notations, and the kana-kanji The conversion dictionary is a dictionary in which kana-kanji mixed notation is registered by using readings composed of kana characters as an index, and the unknown word extracting means is registered in the morphological analysis dictionary based on the kana-kanji mixed notation of unknown words. Means for extracting the extracted unknown word data, and the kana kanji based on the pronunciation and kana kanji mixed notation included in the extracted unknown word data. Means for extracting unknown word data registered in the conversion dictionary.
【請求項6】 予め用意された辞書に存在しない未知語
に関するデータを、所定の管理データを含み得る未知語
データとして追加登録可能に構成されており、日本語文
字列を入力する日本語入力装置において参照される辞書
を、コンピュータにより管理する辞書管理方法であっ
て、 前記辞書に追加登録された未知語のうち少なくとも一部
の未知語を選択する条件を、前記管理データに基づいて
特定し、 前記特定された管理データに対応する未知語データを、
前記辞書から抽出し、 前記抽出された未知語データに対して所定の処理を行う
辞書管理方法。
6. A Japanese input device for inputting a Japanese character string, wherein data relating to an unknown word that does not exist in a prepared dictionary can be additionally registered as unknown word data that can include predetermined management data. A dictionary management method for managing by computer, wherein a condition for selecting at least some unknown words among the unknown words additionally registered in the dictionary is specified based on the management data, Unknown word data corresponding to the specified management data,
A dictionary management method that extracts from the dictionary and performs a predetermined process on the extracted unknown word data.
【請求項7】 予め用意された辞書に存在しない未知語
に関するデータを、未知語データとして追加登録可能に
構成されており、日本語文字列を入力する日本語入力装
置において参照される辞書を、コンピュータにより管理
する辞書管理方法であって、 前記辞書に登録された一の未知語について、前記日本語
入力装置による仮名漢字変換において入力された読みを
検出し、 前記辞書から、前記一の未知語に関する未知語データを
抽出し、 前記抽出された未知語データのうち、前記検出された読
みと異なる読みに対応するデータに対して所定の処理を
行う辞書管理方法。
7. A dictionary which is configured so that data relating to an unknown word which does not exist in a previously prepared dictionary can be additionally registered as unknown word data, and which is referred to in a Japanese input device for inputting a Japanese character string, A dictionary management method for managing by a computer, wherein, for one unknown word registered in the dictionary, a pronunciation input in kana-kanji conversion by the Japanese input device is detected, and the one unknown word is detected from the dictionary. A dictionary management method for extracting unknown word data related to the data and performing a predetermined process on data corresponding to a reading different from the detected reading among the extracted unknown word data.
【請求項8】 予め用意された辞書に存在しない未知語
に関するデータを、所定の管理データを含み得る未知語
データとして追加登録可能に構成されており、日本語文
字列を入力する際に参照される辞書を、コンピュータに
より管理するプログラムを記録したコンピュータ読みと
り可能な記録媒体であって、 前記辞書に追加登録された未知語のうち少なくとも一部
の未知語を選択する条件を、前記管理データに基づいて
特定する機能と、 前記特定された管理データに対応する未知語データを、
前記辞書から抽出する未知語抽出機能と、 前記抽出された未知語データに対して所定の処理を行う
機能とをコンピュータにより実現するプログラムを記録
した記録媒体。
8. Data relating to an unknown word that does not exist in a dictionary prepared in advance can be additionally registered as unknown word data that can include predetermined management data, and is referred to when a Japanese character string is input. A dictionary which is a computer-readable recording medium storing a program managed by a computer, wherein a condition for selecting at least a part of unknown words among unknown words additionally registered in the dictionary is determined based on the management data. And unknown word data corresponding to the specified management data,
A recording medium storing a program for realizing, by a computer, an unknown word extraction function for extracting from the dictionary and a function of performing predetermined processing on the extracted unknown word data.
【請求項9】 請求項8の記録媒体であって、 前記所定の処理は、前記抽出された未知語データを前記
辞書から削除する処理であり、 前記管理データは、前記辞書に登録された各未知語デー
タの参照状況を示すデータまたは各未知語が前記辞書に
登録された時期を示すデータであるプログラムを記録し
た記録媒体。
9. The recording medium according to claim 8, wherein the predetermined process is a process of deleting the extracted unknown word data from the dictionary, and wherein the management data is stored in the dictionary. A recording medium on which a program which is data indicating a reference state of unknown word data or data indicating a time when each unknown word is registered in the dictionary is recorded.
【請求項10】 請求項8記載の記録媒体であって、 前記未知語抽出機能として、 前記辞書を形成するデータのうち、前記管理データ、読
みおよび仮名漢字混じり表記を含む未知語データが関連
付けて登録されており、日本語文字列を文節に分かち書
きする形態素解析において参照される形態素解析用辞書
に含まれるデータを操作する機能と、 前記特定された管理データに対応する未知語データを、
前記形態素解析用辞書から抽出する機能と、 前記辞書を形成するデータのうち、仮名文字からなる読
みをインデックスとして仮名漢字混じりの表記が登録さ
れており、仮名漢字変換において参照される仮名漢字変
換用辞書に含まれるデータを操作する機能と、 該抽出された未知語データに含まれる読みおよび仮名漢
字混じり表記に基づいて、前記仮名漢字変換用辞書に登
録された未知語データを抽出する機能とを有するプログ
ラムを記録した記録媒体。
10. The recording medium according to claim 8, wherein, as the unknown word extraction function, among the data forming the dictionary, the management data, the unknown word data including the pronunciation and kana-kanji mixed notation are associated with each other. A function of operating data included in a morphological analysis dictionary that is registered and referred to in a morphological analysis that separates Japanese character strings into phrases, and unknown word data corresponding to the specified management data,
A function for extracting from the morphological analysis dictionary, and a kana-kanji mixed notation registered with a kana-kanji mixed notation as an index using a reading composed of kana characters, among data forming the dictionary, for kana-kanji conversion. A function of operating data included in the dictionary, and a function of extracting unknown word data registered in the kana-kanji conversion dictionary based on the pronunciation and kana-kanji mixed notation included in the extracted unknown word data. Recording medium on which a program is stored.
【請求項11】 予め用意された辞書に存在しない未知
語に関するデータを、未知語データとして追加登録可能
に構成されており、日本語文字列を入力する際に参照さ
れる辞書を、コンピュータにより管理するプログラムを
記録したコンピュータ読みとり可能な記録媒体であっ
て、 前記辞書に登録された一の未知語について、前記日本語
入力装置による仮名漢字変換において入力された読みを
検出する機能と、 前記辞書から、前記一の未知語に関する未知語データを
抽出する未知語抽出機能と、 前記抽出された未知語データのうち、前記検出された読
みと異なる読みに対応するデータに対し所定の処理を行
う機能とをコンピュータにより実現するプログラムを記
録した記録媒体。
11. A computer which manages a dictionary referred to when inputting a Japanese character string, wherein data relating to an unknown word which does not exist in a previously prepared dictionary can be additionally registered as unknown word data. A computer-readable recording medium on which a program to be recorded is recorded, wherein, for one unknown word registered in the dictionary, a function of detecting a reading input in kana-kanji conversion by the Japanese input device; and An unknown word extraction function of extracting unknown word data related to the one unknown word; and a function of performing a predetermined process on data corresponding to a reading different from the detected reading, among the extracted unknown word data. Recording medium for recording a program for realizing the program by a computer.
【請求項12】 請求項11記載の記録媒体であって、 前記未知語抽出機能として、 前記辞書を形成するデータのうち、読みおよび仮名漢字
混じり表記を含む未知語データが関連付けて登録されて
おり、日本語文字列を文節に分かち書きする形態素解析
において参照される形態素解析用辞書に含まれるデータ
を操作する機能と、 未知語の仮名漢字混じり表記に基づいて、前記形態素解
析用辞書に登録された未知語データを抽出する機能と、 前記辞書を形成するデータのうち、仮名文字からなる読
みをインデックスとして仮名漢字混じりの表記が登録さ
れており、仮名漢字変換において参照される仮名漢字変
換用辞書に含まれるデータを操作する機能と、 該抽出された未知語データに含まれる読みおよび仮名漢
字混じり表記に基づいて、前記仮名漢字変換用辞書に登
録された未知語データを抽出する機能とを有するプログ
ラムを記録した記録媒体。
12. The recording medium according to claim 11, wherein, as the unknown word extraction function, unknown word data including readings and kana-kanji mixed notation among data forming the dictionary is registered in association with each other. A function to manipulate data included in a morphological analysis dictionary referred to in a morphological analysis that separates a Japanese character string into phrases, and a function that is registered in the morphological analysis dictionary based on a kana-kanji mixed notation of an unknown word. A function for extracting unknown word data, and a kana-kanji conversion dictionary registered as a kana-kanji conversion notation, in which kana-kanji mixed notation is registered as an index with readings of kana characters among data forming the dictionary. Based on the function of operating the included data, and the pronunciation and kana-kanji mixed notation included in the extracted unknown word data, Recording medium for recording a program and a function to extract the unknown word data that has been registered in the name kanji conversion dictionary.
JP26809597A 1997-09-12 1997-09-12 Dictionary management apparatus and method, and recording medium Expired - Fee Related JP3900616B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP26809597A JP3900616B2 (en) 1997-09-12 1997-09-12 Dictionary management apparatus and method, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP26809597A JP3900616B2 (en) 1997-09-12 1997-09-12 Dictionary management apparatus and method, and recording medium

Publications (2)

Publication Number Publication Date
JPH1185737A true JPH1185737A (en) 1999-03-30
JP3900616B2 JP3900616B2 (en) 2007-04-04

Family

ID=17453829

Family Applications (1)

Application Number Title Priority Date Filing Date
JP26809597A Expired - Fee Related JP3900616B2 (en) 1997-09-12 1997-09-12 Dictionary management apparatus and method, and recording medium

Country Status (1)

Country Link
JP (1) JP3900616B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009016729A1 (en) * 2007-07-31 2009-02-05 Fujitsu Limited Voice recognition correlation rule learning system, voice recognition correlation rule learning program, and voice recognition correlation rule learning method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009016729A1 (en) * 2007-07-31 2009-02-05 Fujitsu Limited Voice recognition correlation rule learning system, voice recognition correlation rule learning program, and voice recognition correlation rule learning method
JP5141687B2 (en) * 2007-07-31 2013-02-13 富士通株式会社 Collation rule learning system for speech recognition, collation rule learning program for speech recognition, and collation rule learning method for speech recognition

Also Published As

Publication number Publication date
JP3900616B2 (en) 2007-04-04

Similar Documents

Publication Publication Date Title
JPH07282063A (en) Machine translation device
JP2002215617A (en) Method for attaching part of speech tag
JPH07334625A (en) Character string input device
JPH0525138B2 (en)
US5890182A (en) Sentence processing method and apparatus
JPH09198395A (en) Document retrieval device
JPH11328166A (en) Character input device and computer-readable recording medium where character input processing program is recorded
JPH1185737A (en) Device and method for managing dictionary and recording medium
JPH11212967A (en) Prediction input device/method
JP2004265440A (en) Unknown word registration device and method and record medium
JP4279926B2 (en) Unknown word reading derivation device, unknown word reading derivation method, and recording medium
JP3796651B2 (en) Recording medium for Korean language input program
JPS6118074A (en) Pre-editing system
JP3581237B2 (en) Unknown word registration device and method, and recording medium
JP2621999B2 (en) Document processing device
JP2004220513A (en) Information retrieval device
JP3873305B2 (en) Kana-kanji conversion device and kana-kanji conversion method
JPS59100941A (en) Kana (japanese syllabary)-kanji (chinese character) converter
JP2000276479A (en) Electronic dictionary device and recording medium for recording electronic dictionary program
JP2000029882A (en) Summary preparing device
JPH08221443A (en) Method and device for retrieving text including kanji
JPH05233619A (en) Method for correcting error of japanese language sentence and device therefor
JPS60207948A (en) "kana"/"kanji" conversion processor
JPS6029823A (en) Adaptive type symbol string conversion system
JPH0785026A (en) Method and device for revising dictionary

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040309

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040430

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20041015

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060425

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060621

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20061212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061225

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100112

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110112

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110112

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120112

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120112

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130112

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130112

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140112

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees