JP2007080019A - Natural language processing system, natural language processing method and natural language processing program - Google Patents
Natural language processing system, natural language processing method and natural language processing program Download PDFInfo
- Publication number
- JP2007080019A JP2007080019A JP2005268034A JP2005268034A JP2007080019A JP 2007080019 A JP2007080019 A JP 2007080019A JP 2005268034 A JP2005268034 A JP 2005268034A JP 2005268034 A JP2005268034 A JP 2005268034A JP 2007080019 A JP2007080019 A JP 2007080019A
- Authority
- JP
- Japan
- Prior art keywords
- dictionary
- user
- dictionary data
- similarity
- natural language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
Description
本発明は、ユーザ辞書を用いて自然言語を処理する技術に関し、特に、ユーザ辞書を更新するために共有するべきデータを適切に抽出することができる自然言語処理システム等に関する。 The present invention relates to a technology for processing a natural language using a user dictionary, and more particularly to a natural language processing system and the like that can appropriately extract data to be shared in order to update the user dictionary.
仮名漢字変換、機械翻訳、音声認識、音声合成といった自然言語処理システムは、基本的に辞書に格納された単語とそこに付与された言語情報に基づいて処理を行なっており、辞書に格納されていない単語、すなわち未知語を適切に処理することは困難である。一方、自然言語は日々変化しており、新語が生まれたり、また既知語であっても新たな用法が発生したりするため、予めこれら全てを辞書に格納しておくことは難しい。
そこで従来から、個々のユーザが必要になった単語を個別に登録することができるユーザ辞書機能を提供することでこの問題に対応してきた。しかし複数のユーザで共通に必要な単語についてもユーザ毎で別々に辞書登録作業を行なわなければならず、ユーザ全体にとって冗長な作業が生じていた。これに対して個々のユーザが登録した辞書データを複数のユーザで共有する方法が提案されている。
Natural language processing systems such as kana-kanji conversion, machine translation, speech recognition, and speech synthesis basically perform processing based on words stored in the dictionary and the language information assigned thereto, and are stored in the dictionary. It is difficult to properly handle missing words, that is, unknown words. On the other hand, natural languages are changing day by day, and new words are born, and even if they are known words, new usage occurs, so it is difficult to store them all in the dictionary in advance.
Therefore, conventionally, this problem has been addressed by providing a user dictionary function that can individually register words that are required by individual users. However, even for words that are commonly required by a plurality of users, the dictionary registration work must be performed separately for each user, and redundant work has occurred for the entire user. On the other hand, a method of sharing dictionary data registered by individual users among a plurality of users has been proposed.
例えば特許文献1には、複数のユーザ辞書全体で一定回数以上出現する辞書データを共有すべき辞書データの候補として抽出し、これをユーザ全員で共有する方法が記載されている。しかしこの方法では、様々な組織や分野に関連する単語の辞書データがその区別のないまま一律に共有されてしまうため、ユーザの多い組織や分野に関連する単語の辞書データが共有され易くなり、少数派の組織や分野に属するユーザにとっては有益な辞書データを得ることができないという問題が生じる。また個々のユーザにとっては自分に関係のない組織や分野に関する不必要な単語の辞書データまでもが共有されてしまい、その影響で却って自然言語処理の精度が落ちる場合があった。
For example,
この問題に対する従来例としては、特許文献1と特許文献3に、個々のユーザ辞書や辞書データを予め定められた分野に対応付けて管理し、個々の分野の単位で共有すべき辞書データの候補を抽出し、分野の単位で共有する方法が記載されている。
特許文献2には、個々のユーザ辞書や辞書データを予め定められた組織に対応付けて管理し、個々の組織の単位で共有すべき辞書データの候補を抽出し、組織の単位で共有する方法が記載されている。
これらの方法は辞書データを共有する相手を組織や分野が同一である範囲に制限することで、組織や分野を超えて不適切に辞書データが共有されることを防ごうとするものである。
As a conventional example for this problem,
These methods are intended to prevent the dictionary data from being inappropriately shared across organizations and fields by limiting the partners who share the dictionary data to a range where the organizations and fields are the same.
しかし、上記の従来技術では、組織や分野の定義はユーザの視点によって異なり、また時間とともに変化するものであるにもかかわらず、予め定められた固定的な構造で組織や分野を扱うことを前提としている。
そのため、個々のユーザの視点の違いや時間変化に対して柔軟に対応することができず、必要な辞書データと不適切な辞書データとが混在したまま共有すべき辞書データとして抽出されてしまうという問題があった。
However, in the above prior art, the definition of an organization or a field varies depending on the user's viewpoint and changes with time, but it is assumed that the organization or field is handled with a predetermined fixed structure. It is said.
For this reason, it is not possible to flexibly cope with differences in viewpoints and changes in time of individual users, and necessary dictionary data and inappropriate dictionary data are extracted as dictionary data to be shared while being mixed. There was a problem.
そこで、本発明は、辞書データを共有すべき相手を個々のユーザの単位で適切に選択することで、共有すべき辞書データが適切に抽出できる自然言語処理システム等を提供することをその目的とする。 Accordingly, an object of the present invention is to provide a natural language processing system or the like that can appropriately extract dictionary data to be shared by appropriately selecting a partner to share dictionary data in units of individual users. To do.
本発明の自然言語処理システムは、類似度計算手段が第1のユーザ辞書(辞書データを共有する相手のユーザ辞書)と第2のユーザ辞書(辞書データの登録対象となるユーザ辞書)の間の類似度を計算する。登録候補抽出手段は、類似度が予め定められた閾値以上である場合に第1のユーザ辞書に含まれかつ第2のユーザ辞書に含まれない辞書データを第2の辞書に対する登録候補として抽出する。ユーザ辞書登録手段は、登録候補に含まれる辞書データを第2のユーザ辞書に登録する(請求項1ないし請求項6)。
In the natural language processing system according to the present invention, the similarity calculation means is between the first user dictionary (the user dictionary of the other party sharing the dictionary data) and the second user dictionary (the user dictionary to be registered with the dictionary data). Calculate similarity. The registration candidate extraction unit extracts dictionary data included in the first user dictionary and not included in the second user dictionary as registration candidates for the second dictionary when the similarity is equal to or higher than a predetermined threshold. . The user dictionary registration means registers the dictionary data included in the registration candidates in the second user dictionary (
上記自然言語処理システムによれば、登録候補抽出手段が、ユーザ辞書の類似度を基準として登録候補を抽出するユーザ辞書、すなわち辞書データを共有すべき相手のユーザ辞書を選択する。類似度が低ければ、第1のユーザ辞書のユーザと第2のユーザ辞書のユーザが同一の組織・分野に属していたとしても第1のユーザ辞書からは登録候補が抽出されない。
そのため、辞書データを共有する相手のユーザ辞書を個々のユーザ単位で適切に選択することができる。
According to the natural language processing system, the registration candidate extraction unit selects a user dictionary that extracts registration candidates based on the similarity of the user dictionary, that is, a partner user dictionary to which dictionary data should be shared. If the degree of similarity is low, registration candidates are not extracted from the first user dictionary even if the users of the first user dictionary and the users of the second user dictionary belong to the same organization / field.
Therefore, the user dictionary of the other party who shares dictionary data can be selected appropriately for each user.
上記自然言語処理システムにおいて、類似度を第1のユーザ辞書および第2のユーザ辞書に登録されている辞書データの総数(第1のユーザ辞書の辞書データ数と第2のユーザ辞書の辞書データ数から二つの辞書に共通して登録されている辞書データの数を引いた数)と第1のユーザ辞書および第2のユーザ辞書に共通して登録されている辞書データの数との比に基づいて算出するようにしても良い(請求項2)。
このようにすれば、共通した辞書データが多く登録されているユーザ辞書を辞書データの共有相手として選択することができる。
In the natural language processing system, the similarity is the total number of dictionary data registered in the first user dictionary and the second user dictionary (the number of dictionary data in the first user dictionary and the number of dictionary data in the second user dictionary). Based on the ratio of the number of dictionary data registered in common to the two dictionaries) and the number of dictionary data registered in common in the first user dictionary and the second user dictionary (Claim 2).
In this way, a user dictionary in which many common dictionary data are registered can be selected as a dictionary data sharing partner.
上記自然言語処理システムにおいて、第1のユーザ辞書を用いて過去に行われた自然言語処理の処理対象と第2のユーザ辞書を用いて過去に行われた自然言語処理の処理対象の類似度である処理対象類似度に基づいて類似度を計算するようにしても良い(請求項3)。
このようにすれば、取り扱う処理対象が類似するユーザのユーザ辞書を共有相手として選択することができる。
In the natural language processing system, the similarity between the processing target of the natural language processing performed in the past using the first user dictionary and the processing target of the natural language processing performed in the past using the second user dictionary. You may make it calculate a similarity based on a certain process target similarity (Claim 3).
In this way, it is possible to select a user dictionary of a user with a similar processing target to be handled as a sharing partner.
上記自然言語処理システムにおいて、辞書データは分類情報を含むようにし、第1のユーザ辞書に記憶された辞書データの中の同一の分類情報を持つ辞書データからなる第1の辞書データ集合と第2のユーザ辞書に記憶された辞書データの中の同一の分類情報を持つ辞書データからなる第2辞書データ集合の類似度である辞書データ集合類似度に基づいて類似度を計算するようにし、第1の辞書データ集合に含まれ、かつ、第2の辞書データ集合に含まれない辞書データを登録候補として抽出するようにしてもよい(請求項4)。
このようにすれば、辞書データの種類を考慮して登録候補の抽出対象を選択することができるため、ユーザ辞書全体を登録候補の抽出対象とする場合に比べ、より適切に辞書データの共有相手を選択することができる。
In the natural language processing system, the dictionary data includes classification information, and the first dictionary data set and the second dictionary data that are composed of dictionary data having the same classification information in the dictionary data stored in the first user dictionary. The similarity is calculated based on the dictionary data set similarity, which is the similarity of the second dictionary data set made up of dictionary data having the same classification information among the dictionary data stored in the user dictionary of the first, The dictionary data included in the dictionary data set and not included in the second dictionary data set may be extracted as registration candidates.
In this way, the candidate for registration candidate extraction can be selected in consideration of the type of dictionary data, so that the dictionary data sharing partner can be more appropriately compared with the case where the entire user dictionary is the candidate for registration candidate extraction. Can be selected.
上記自然言語処理システムにおいて、第1の辞書データ集合および第2の辞書データ集合に登録されている辞書データの総数と第1の辞書データ集合および第2の辞書データ集合に共通して登録されている辞書データの数との比に基づいて辞書データ集合類似度を計算するようにしても良い(請求項5)。
このようにすれば、共通した辞書データが多く登録されている辞書データ集合を辞書データの共有相手として選択することができる。
In the natural language processing system, the total number of dictionary data registered in the first dictionary data set and the second dictionary data set and the common registration in the first dictionary data set and the second dictionary data set. The dictionary data set similarity may be calculated based on the ratio to the number of dictionary data.
In this way, a dictionary data set in which many common dictionary data are registered can be selected as a dictionary data sharing partner.
上記自然言語処理システムにおいて、第1の辞書データ集合を用いて過去に行われた自然言語処理の処理対象と第2の辞書データ集合を用いて過去に行われた自然言語処理の処理対象の類似度に基づいて辞書データ類似度を計算するようにしても良い(請求項6)。
このようにすれば、辞書データ集合を単位として、取り扱う処理対象が類似するユーザのユーザ辞書の一部を共有相手として選択することができる。
In the natural language processing system, the processing target of the natural language processing performed in the past using the first dictionary data set is similar to the processing target of the natural language processing performed in the past using the second dictionary data set. The dictionary data similarity may be calculated based on the degree (claim 6).
In this way, it is possible to select, as a sharing partner, a part of a user dictionary of users with similar processing targets to be handled in units of dictionary data sets.
本発明の自然言語処理方法は、第1のユーザ辞書と第2のユーザ辞書を記憶装置から読み出して前記第1のユーザ辞書と前記第2のユーザ辞書との間の類似度を計算し、類似度が予め定められた閾値以上である場合に、第1のユーザ辞書に含まれ、かつ、第2のユーザ辞書に含まれない辞書データを第2のユーザ辞書に対する登録候補として抽出してこの抽出候補を記憶装置に記録し、登録候補を記憶装置から読み出し登録候補に含まれる辞書データを第2のユーザ辞書に登録する(請求項7)。 According to the natural language processing method of the present invention, the first user dictionary and the second user dictionary are read from the storage device, and the similarity between the first user dictionary and the second user dictionary is calculated. When the degree is equal to or greater than a predetermined threshold, the dictionary data included in the first user dictionary and not included in the second user dictionary is extracted as a registration candidate for the second user dictionary and extracted. The candidate is recorded in the storage device, the registration candidate is read from the storage device, and dictionary data included in the registration candidate is registered in the second user dictionary (claim 7).
上記自然言語処理方法によれば、ユーザ辞書の類似度を基準として登録候補を抽出するユーザ辞書、すなわち辞書データを共有すべき相手のユーザ辞書を選択する。類似度が低ければ、第1のユーザ辞書のユーザと第2のユーザ辞書のユーザが同一の組織・分野に属していたとしても第1のユーザ辞書からは登録候補が抽出されない。
そのため、辞書データを共有する相手のユーザ辞書を個々のユーザ単位で適切に選択することができる。
According to the natural language processing method, the user dictionary for extracting registration candidates based on the similarity of the user dictionary, that is, the partner user dictionary to which the dictionary data should be shared is selected. If the degree of similarity is low, registration candidates are not extracted from the first user dictionary even if the users of the first user dictionary and the users of the second user dictionary belong to the same organization / field.
Therefore, the user dictionary of the other party who shares dictionary data can be selected appropriately for each user.
本発明の自然言語処理プログラムは、コンピュータに、第1のユーザ辞書と第2のユーザ辞書を記憶装置から読み出して第1のユーザ辞書と第2のユーザ辞書との間の類似度を計算する類似度計算機能と、類似度が予め定められた閾値以上である場合に第1のユーザ辞書に含まれ、かつ、第2のユーザ辞書に含まれない辞書データを第2のユーザ辞書に対する登録候補として抽出し、この抽出候補を記憶装置に記録する登録候補抽出機能と、登録候補を記憶装置から読み出して、登録候補に含まれる辞書データを第2のユーザ辞書に登録するユーザ辞書登録機能とを実行させる(請求項8ないし請求項13)。
The natural language processing program of the present invention reads the first user dictionary and the second user dictionary from the storage device and calculates the similarity between the first user dictionary and the second user dictionary on a computer. The dictionary data included in the first user dictionary and not included in the second user dictionary when the similarity is equal to or greater than a predetermined threshold as a registration candidate for the second user dictionary A registration candidate extraction function for extracting and recording the extraction candidates in the storage device and a user dictionary registration function for reading the registration candidates from the storage device and registering dictionary data included in the registration candidates in the second user dictionary are executed. (
上記自然言語処理プログラムによれば、コンピュータに、ユーザ辞書の類似度を基準として登録候補を抽出するユーザ辞書、すなわち辞書データを共有すべき相手のユーザ辞書を選択させる。この類似度が低ければ、コンピュータは、第1のユーザ辞書のユーザと第2のユーザ辞書のユーザが同一の組織・分野に属していたとしても第1のユーザ辞書からは登録候補を抽出しない。
そのため、コンピュータを自然言語処理システムとして動作させ、辞書データを共有する相手のユーザ辞書を個々のユーザ単位で適切に選択することができる。
According to the natural language processing program, the computer is caused to select a user dictionary for extracting registration candidates based on the similarity of the user dictionary, that is, a partner user dictionary to which dictionary data should be shared. If the similarity is low, the computer does not extract registration candidates from the first user dictionary even if the user of the first user dictionary and the user of the second user dictionary belong to the same organization / field.
Therefore, it is possible to operate the computer as a natural language processing system and appropriately select a partner user dictionary to share dictionary data for each user.
上記プログラムにおいて、第1のユーザ辞書および第2のユーザ辞書に登録されている辞書データの総数と第1のユーザ辞書および第2のユーザ辞書に共通して登録されている辞書データの数との比に基づいて類似度を計算するようにしても良い(請求項9)。
このようにすれば、共通した辞書データが多く登録されているユーザ辞書を辞書データの共有相手として選択することができる。
In the above program, the total number of dictionary data registered in the first user dictionary and the second user dictionary and the number of dictionary data registered in common in the first user dictionary and the second user dictionary The similarity may be calculated based on the ratio (claim 9).
In this way, a user dictionary in which many common dictionary data are registered can be selected as a dictionary data sharing partner.
上記プログラムにおいて、第1のユーザ辞書を用いて過去に行われた自然言語処理の処理対象と第2のユーザ辞書を用いて過去に行われた自然言語処理の処理対象の類似度である処理対象類似度に基づいて類似度を計算するようにしても良い(請求項10)。
このようにすれば、取り扱う処理対象が類似するユーザのユーザ辞書を共有相手として選択することができる。
In the above program, a processing target that is a similarity between a processing target of natural language processing performed in the past using the first user dictionary and a processing target of natural language processing performed in the past using the second user dictionary The similarity may be calculated based on the similarity (claim 10).
In this way, it is possible to select a user dictionary of a user with a similar processing target to be handled as a sharing partner.
上記プログラムにおいて、辞書データは分類情報を含むようにし、第1のユーザ辞書に記憶された辞書データの中の同一の分類情報を持つ辞書データからなる第1の辞書データ集合と第2のユーザ辞書に記憶された辞書データの中の同一の分類情報を持つ辞書データからなる第2辞書データ集合の類似度である辞書データ集合類似度に基づいて類似度を計算するようにし、第1の辞書データ集合に含まれ、かつ、第2の辞書データ集合に含まれない辞書データを登録候補として抽出するようにしてもよい(請求項11)。
このようにすれば、辞書データの種類を考慮して登録候補の抽出対象を選択することができるため、ユーザ辞書全体を登録候補の抽出対象とする場合に比べ、より適切に辞書データの共有相手を選択することができる。
In the above program, the dictionary data includes classification information, and the first dictionary data set and the second user dictionary composed of dictionary data having the same classification information in the dictionary data stored in the first user dictionary The similarity is calculated based on the dictionary data set similarity which is the similarity of the second dictionary data set made up of dictionary data having the same classification information in the dictionary data stored in the first dictionary data Dictionary data included in the set and not included in the second dictionary data set may be extracted as registration candidates (claim 11).
In this way, the candidate for registration candidate extraction can be selected in consideration of the type of dictionary data, so that the dictionary data sharing partner can be more appropriately compared with the case where the entire user dictionary is the candidate for registration candidate extraction. Can be selected.
上記プログラムにおいて、第1の辞書データ集合および第2の辞書データ集合に登録されている辞書データの総数と第1の辞書データ集合および第2の辞書データ集合に共通して登録されている辞書データの数との比に基づいて辞書データ集合類似度を計算するようにしても良い(請求項12)。
このようにすれば、共通した辞書データが多く登録されている辞書データ集合を辞書データの共有相手として選択することができる。
In the above program, the total number of dictionary data registered in the first dictionary data set and the second dictionary data set, and dictionary data registered in common in the first dictionary data set and the second dictionary data set The dictionary data set similarity may be calculated on the basis of the ratio to the number of claims.
In this way, a dictionary data set in which many common dictionary data are registered can be selected as a dictionary data sharing partner.
上記プログラムにおいて、第1の辞書データ集合を用いて過去に行われた自然言語処理の処理対象と第2の辞書データ集合を用いて過去に行われた自然言語処理の処理対象の類似度である処理対象類似度に基づいて辞書データ類似度を計算するようにしても良い(請求項13)。
このようにすれば、辞書データ集合を単位として、取り扱う処理対象が類似するユーザのユーザ辞書の一部を共有相手として選択することができる。
In the above program, the similarity between the processing target of the natural language processing performed in the past using the first dictionary data set and the processing target of the natural language processing performed in the past using the second dictionary data set. The dictionary data similarity may be calculated based on the processing target similarity.
In this way, it is possible to select, as a sharing partner, a part of a user dictionary of users with similar processing targets to be handled in units of dictionary data sets.
本発明によれば、ユーザ辞書の類似度を基準として登録候補を抽出するユーザ辞書、すなわち辞書データを共有すべき相手のユーザ辞書を選択する。類似度が低ければ、第1のユーザ辞書のユーザと第2のユーザ辞書のユーザが同一の組織・分野に属していたとしても第1のユーザ辞書からは登録候補が抽出されない。
そのため、辞書データを共有する相手のユーザ辞書を個々のユーザ単位で適切に選択することができる。
According to the present invention, a user dictionary from which registration candidates are extracted based on the similarity of the user dictionary, that is, a partner user dictionary to which dictionary data should be shared is selected. If the degree of similarity is low, registration candidates are not extracted from the first user dictionary even if the users of the first user dictionary and the users of the second user dictionary belong to the same organization / field.
Therefore, the user dictionary of the other party who shares dictionary data can be selected appropriately for each user.
次に、本発明の第1の実施形態である自然言語処理システム10の構成と動作について図面を参照して詳細に説明する。
図1は、自然言語処理システム10の構成を示す機能ブロック図である。
図1を参照すると、自然言語処理システム10は例えばパーソナルコンピュータであり、キーボードやマイク等の入力装置1と、プログラム制御により動作するデータ処理装置2と、情報を記憶する記憶装置3と、ディスプレイ装置や印刷装置、スピーカ等の出力装置4とを備えている。
Next, the configuration and operation of the natural language processing system 10 according to the first embodiment of the present invention will be described in detail with reference to the drawings.
FIG. 1 is a functional block diagram showing the configuration of the natural language processing system 10.
Referring to FIG. 1, a natural language processing system 10 is, for example, a personal computer, and includes an
記憶装置3は、例えばハードディスク装置により構成され、ユーザ辞書記憶部31と登録候補記憶部32とを備えている。
ユーザ辞書記憶部31は、個々のユーザのユーザ辞書31A、31B、31C等を格納している。ここで各々のユーザ辞書はユーザが登録した単語とそれに対応する言語情報を格納している。ここで言語情報は後述する自然言語処理手段24がその処理のために参照する情報であり、例えば、仮名表記、読み、訳語、品詞、意味情報などから構成される。
登録候補記憶部32は、ユーザ辞書31Aに対応する登録候補32A等、個々のユーザ辞書毎に登録候補を記憶している。登録候補には、対応するユーザ辞書に対して登録する辞書データの候補が含まれている。ここで辞書データとはユーザ辞書に登録された情報の最小単位であり、単語とそれに対応する言語情報からなる。
The
The user
The registration
データ処理装置2は例えばCPU(Central Processing Unit)であり、類似度計算手段21と、登録候補抽出手段22と、ユーザ辞書登録手段23と、自然言語処理手段24とを備えている。
類似度計算手段21は、ユーザ辞書記憶部31に格納されたユーザ辞書のうちの二つのユーザ辞書(第1のユーザ辞書と第2のユーザ辞書)の間の類似度を計算する。ここでユーザ辞書間の類似度としては、例えば各々のユーザ辞書に登録された辞書データの一致度を用いることができる。この一致度は各々のユーザ辞書に登録されている辞書データの総数と両方のユーザ辞書に共通して登録されている辞書データの数の比で定義することができる。
また自然言語処理手段24の行なう自然言語処理が仮名漢字変換処理や機械翻訳処理、音声合成処理のように自然言語の文字列を処理対象とする場合には、ユーザ辞書間の類似度として、過去にそのユーザ辞書を用いて行なった自然言語処理の処理対象の間での類似度を用いても良い。ここで処理対象間の類似度は、例えばSaltonらによって提案され、情報検索分野で広く利用されているベクトル空間モデル(G. Salton and M. J. McGill, “Introduction to Modern Information Retrieval”, McGraw-Hill, 1983)に基づいて計算することができる。ベクトル空間モデルによると、例えば、処理対象はそこに含まれる自立語を成分とした特徴ベクトルで表現することができ、処理対象間の類似度は各々の特徴ベクトルがなす角の余弦等で定義することができる。
The
The similarity calculation means 21 calculates the similarity between two user dictionaries (the first user dictionary and the second user dictionary) among the user dictionaries stored in the user
If the natural language processing performed by the natural language processing means 24 is to process natural language character strings such as kana-kanji conversion processing, machine translation processing, and speech synthesis processing, the similarity between the user dictionaries is set as the past. Alternatively, the similarity between the processing objects of the natural language processing performed using the user dictionary may be used. Here, the similarity between objects to be processed is, for example, a vector space model (G. Salton and MJ McGill, “Introduction to Modern Information Retrieval”, McGraw-Hill, 1983, proposed by Salton et al. ). According to the vector space model, for example, the processing target can be expressed by a feature vector whose component is an independent word contained therein, and the similarity between the processing targets is defined by the cosine of the angle formed by each feature vector. be able to.
登録候補抽出手段22は、類似度計算手段21で計算された類似度が閾値以上であるユーザ辞書の組(第1のユーザ辞書と第2のユーザ辞書)を取り出し、第1のユーザ辞書に含まれていて、かつ第2のユーザ辞書に含まれない辞書データを、共有すべき辞書データの候補(登録候補)として抽出する。登録候補が抽出できた場合には、その辞書データを第2のユーザ辞書に対応付けて登録候補記憶部32に記録する。例えば、ユーザ辞書31Bを第2のユーザ辞書、ユーザ辞書31Aを第1のユーザ辞書とすると、登録候補抽出手段22は、ユーザ辞書31Bには含まれていてかつユーザ辞書31Aには含まれていない辞書データがあった場合、これをユーザ辞書31Aに対応する登録候補として登録候補記憶部32Aに記録する。
The registration candidate extraction unit 22 takes out a set of user dictionaries (first user dictionary and second user dictionary) whose similarity calculated by the similarity calculation unit 21 is equal to or greater than a threshold value, and includes it in the first user dictionary. Dictionary data that is not included in the second user dictionary is extracted as dictionary data candidates (registration candidates) to be shared. If registration candidates can be extracted, the dictionary data is recorded in the registration
ユーザ辞書登録手段23は、登録候補記憶部32に記録された登録候補を読み出し、その中に含まれる辞書データを対応するユーザ辞書に登録する。ここでは読み出した登録候補に含まれる辞書データを出力装置4に表示し、その辞書データを登録するかどうかをユーザに問い合わせてもよい。この場合はさらに、ユーザが必要ないと判断した辞書データを登録対象外であることを表す情報とともに登録候補記憶部32に記録しておき、その後で登録候補抽出手段22が同じ辞書データを共有すべき辞書データの候補として抽出したとしても、登録対象外として除外する形態をとってもよい。
The user dictionary registration unit 23 reads registration candidates recorded in the registration
自然言語処理手段24は、ユーザからの入力を受け付け、ユーザ辞書記憶部31に格納されているそのユーザのユーザ辞書を利用して自然言語処理を施し、処理の結果を出力する。ここで自然言語処理手段24の行なう自然言語処理は例えば、仮名漢字変換処理や機械翻訳処理、音声認識処理、音声合成処理である。ここで仮名漢字変換処理は入力された仮名文字列を漢字仮名混じり文字列に変換する処理であり、機械翻訳処理は入力された第一の言語の文字列を第二の言語の文字列に変換する処理であり、音声認識処理は入力された音声信号を文字列に変換する処理であり、音声合成処理は入力された文字列を音声信号に変換する処理である。
The natural language processing unit 24 receives an input from the user, performs natural language processing using the user dictionary of the user stored in the user
次に、図1及び図2のフローチャートを参照して、自然言語処理システム10が共有すべき辞書データの候補を登録候補として抽出する動作について詳細に説明する。
図2は、自然減処理システム10が登録候補を抽出する動作を示すフローチャートである。動作の概要としては、ユーザ辞書記憶部31に記憶されているユーザ辞書から選んだ二つの辞書の組み合わせの全てについて類似度を計算し、類似度が閾値以上である組み合わせについてはそれぞれのユーザ辞書に対応する登録候補を抽出して登録候補記憶部32に記録する。
Next, with reference to the flowcharts of FIG. 1 and FIG. 2, an operation of extracting dictionary data candidates to be shared by the natural language processing system 10 as registration candidates will be described in detail.
FIG. 2 is a flowchart showing an operation in which the natural reduction processing system 10 extracts registration candidates. As an outline of the operation, the similarity is calculated for all combinations of two dictionaries selected from the user dictionaries stored in the user
まず、類似度計算手段21はユーザ辞書記憶部31の中から二つのユーザ辞書の組を取り出す(ステップS101)。次に未処理のユーザ辞書の組が取り出せたかどうかを調べ(ステップS102)、取り出せなかった場合には処理を終了する。
未処理のユーザ辞書の組を取り出せた場合、類似度計算手段21は、それらのユーザ辞書の間の類似度を計算する(ステップS103)。
次に登録候補抽出手段22は類似度計算手段21で得られた類似度と閾値とを比較する(ステップS104)。得られた類似度が閾値よりも小さい場合はステップS101に戻って処理を継続する。得られた類似度が閾値以上である場合、登録候補抽出手段22は、これらのユーザ辞書に格納された辞書データを比較し、片方のユーザ辞書にだけ含まれている辞書データを登録候補として抽出する(ステップS105)。ここで登録候補を抽出できなかった場合はステップS101に戻って処理を継続する(ステップS106)。
登録候補を抽出できた場合、登録候補抽出手段22は、その登録候補をそれを含んでいない方のユーザ辞書に対応する登録候補として登録候補記憶部32に格納した後、ステップS101に戻って処理を継続する(ステップS107)。
First, the similarity calculation means 21 takes out a set of two user dictionaries from the user dictionary storage unit 31 (step S101). Next, it is checked whether or not a set of unprocessed user dictionaries can be extracted (step S102), and if it cannot be extracted, the process ends.
When a set of unprocessed user dictionaries can be extracted, the similarity calculation means 21 calculates the similarity between these user dictionaries (step S103).
Next, the registration candidate extraction unit 22 compares the similarity obtained by the similarity calculation unit 21 with a threshold value (step S104). If the obtained similarity is smaller than the threshold value, the process returns to step S101 and continues. If the obtained similarity is equal to or greater than the threshold value, the registration candidate extraction unit 22 compares the dictionary data stored in these user dictionaries, and extracts dictionary data included only in one of the user dictionaries as a registration candidate. (Step S105). If the registration candidate cannot be extracted, the process returns to step S101 and continues (step S106).
When the registration candidate can be extracted, the registration candidate extraction unit 22 stores the registration candidate in the registration
なお、ここではユーザ辞書という単位で二つのユーザ辞書の間の類似度を計算し登録候補を抽出しているが、ユーザ辞書内の辞書データに分類情報が設定されている場合には、個々のユーザ辞書において同一の分類情報が設定された辞書データの集合を単位として類似度を計算し、その単位毎に共有すべき辞書データの候補を抽出しても良い。
例えば、ユーザ辞書31Aに含まれる辞書データの中で同一の分類情報イを持つものの集合(第2の辞書データ集合)とユーザ辞書31Bに含まれる辞書データの中で同一の分類情報ロを持つものの集合(ここで、分類情報イと分類情報ロは同一でも良いし異なっていても良い)との間の類似度(辞書データ集合類似度)を計算し、この類似度を辞書データの類似度とする。そして、例えば、第2の辞書データ集合にのみ含まれる辞書データをユーザ辞書31Aの登録候補データとする。辞書データ集合の類似度は、上記に説明したユーザ辞書の類似度と同様の方法で計算することができる。
さらにこの場合、得られた辞書データの集合の、同一のユーザ辞書の範囲での組み合わせを単位として類似度を計算し、その単位毎に共有すべき辞書データの候補を抽出しても良い。
Here, the similarity between two user dictionaries is calculated in units of user dictionaries and registration candidates are extracted. However, if classification information is set in the dictionary data in the user dictionary, Similarity may be calculated for a set of dictionary data in which the same classification information is set in the user dictionary, and dictionary data candidates to be shared for each unit may be extracted.
For example, a set of dictionary data included in the
Furthermore, in this case, the similarity may be calculated in units of combinations of the obtained dictionary data within the range of the same user dictionary, and dictionary data candidates to be shared may be extracted for each unit.
またこの登録候補を抽出する処理は、例えば一定期間毎に動作させる形態をとることができる。あるいは、ユーザ辞書記憶部31内の一つのユーザ辞書が更新されたときに動作させ、更新されたユーザ辞書とそれ以外のユーザ辞書の組み合わせに対してだけこの処理を適用することで、効率的に処理を行なう形態をとることもできる。
Moreover, the process which extracts this registration candidate can take the form operated for every fixed period, for example. Alternatively, when one user dictionary in the user
次に、図1及び図3のフローチャートを参照して、自然言語処理システム10が登録候補に含まれる辞書データをユーザ辞書に登録する動作について詳細に説明する。
図3は、自然言語処理システム10が抽出された辞書データをユーザ辞書に登録する動作を示すフローチャートである。動作の概要としては、登録候補記憶部32から登録すべき辞書データの候補を取り出して個々のユーザに提示し、ユーザの指示に応じてそれぞれの辞書データを対応するユーザ辞書に登録する。
Next, the operation of the natural language processing system 10 for registering the dictionary data included in the registration candidates in the user dictionary will be described in detail with reference to the flowcharts of FIGS. 1 and 3.
FIG. 3 is a flowchart showing an operation of registering the extracted dictionary data in the user dictionary by the natural language processing system 10. As an outline of the operation, dictionary data candidates to be registered are extracted from the registration
まずユーザ辞書登録手段23は、登録候補記憶部32からユーザ辞書に対応する登録候補を取り出す(図3のステップS111)。次に、ユーザ辞書登録手段23は、登録候補記憶部32から登録候補が取り出せたか、取り出せたならその登録候補に含まれる辞書データが登録対象外でないかを検査し、ユーザ辞書に登録すべき辞書データの候補が存在するかどうかを調べる(ステップS112)。ここで登録すべき辞書データの候補が存在しない場合、すなわち、登録候補を取り出せなかった場合、または、登録候補を取り出せたがそれに含まれる辞書データの全てに登録対象外であることを示す情報が付されている場合には処理を終了する。
First, the user dictionary registration unit 23 extracts registration candidates corresponding to the user dictionary from the registration candidate storage unit 32 (step S111 in FIG. 3). Next, the user dictionary registration means 23 checks whether or not a registration candidate can be extracted from the registration
登録すべき辞書データの候補が存在する場合、ユーザ辞書登録手段23は、出力装置4にその辞書データを表示し、個々の辞書データについてそれをユーザ辞書に登録するかどうかをユーザに問い合わせる(ステップS113)。ユーザ辞書登録手段23は、その後、入力装置1から入力を受け付け、登録対象外と入力された辞書データが存在するかどうかを調べる(ステップS114)。登録対象外と入力された辞書データが存在する場合、ユーザ辞書登録手段23は当該辞書データを登録対象外であることを表す情報とともに登録候補記憶部32に記録する(ステップS115)。その後、もしくはステップS113で登録対象外と入力された辞書データが存在しない(ステップS114の判断がノーの)場合、ユーザ辞書登録手段23は、登録すると入力された辞書データが存在するかどうかを調べる(ステップS116)。登録すると入力された辞書データが存在する場合、ユーザ辞書登録手段23は当該辞書データをユーザ辞書に登録する(ステップS117)。その後、もしくはステップS116で登録すると入力された辞書データが存在しない場合は処理を終了する。
If there is a candidate for dictionary data to be registered, the user dictionary registration means 23 displays the dictionary data on the
抽出された辞書データをユーザ辞書に登録する処理は、例えばユーザが陽にこの処理を呼び出したタイミングで動作させる形態や、ユーザが自然言語処理手段24を呼び出したタイミングで動作させる形態をとることができる。 The process of registering the extracted dictionary data in the user dictionary may take, for example, a form that operates when the user explicitly calls this process or a form that operates when the user calls the natural language processing means 24. it can.
次に、自然言語処理システム10の第1の具体的な動作例について説明する。
この例では、特に自然言語処理手段24が機械翻訳処理を行なうものとし、図1のユーザ辞書31A、ユーザ辞書31Bの二つのユーザ辞書から各々の登録候補を抽出し、この登録候補に含まれる辞書データをユーザ辞書Aおよびユーザ辞書Bに登録する動作について説明する。
図4(a)にユーザ辞書31Aの内容を、図4(b)にユーザ辞書31Bのデータ内容を示す。図4(a)と図4(b)にはユーザ辞書31Aとユーザ辞書31Bの2つのユーザ辞書の内容が表形式で示されており、各々の表の一行が一つの辞書データを表している。例えば図4(a)一行目は、日本語が「キメラ」、英語が「chimera」、品詞が「名詞」である辞書データを表している。この例では、「キメラ」が単語であり、「chimera」と「名詞」が言語情報である。
Next, a first specific operation example of the natural language processing system 10 will be described.
In this example, it is assumed that the natural language processing means 24 performs machine translation processing in particular, and each registration candidate is extracted from the two
FIG. 4A shows the contents of the
登録候補を抽出する処理では、類似度計算手段21が、ユーザ辞書記憶部31からユーザ辞書31Aとユーザ辞書31Bを取り出し、その間の類似度を計算する。
ユーザ辞書31Aには10個、ユーザ辞書31Bには11個の辞書データが登録されており、この中で両者に共通して登録されている辞書データは「キメラ」の行など9個であるから、二つの辞書に登録されている辞書データの総数は10+11−9=12個となる。
これらの数値に基づいて類似度計算手段21は、ユーザ辞書31Aとユーザ辞書31Bの類似度を9/12=0.75と算出する。
In the process of extracting registration candidates, the similarity calculation means 21 extracts the
Ten dictionary data are registered in the
Based on these numerical values, the similarity calculation means 21 calculates the similarity between the
次に登録候補抽出手段22は、類似度計算手段21が出力した類似度0.75と閾値とを比較する。ここで閾値が0.7であったとすると、ユーザ辞書31Aとユーザ辞書31Bの類似度はこの値以上であるため、両者から登録候補を抽出する処理に進む。ここでは、まずユーザ辞書31Aについては、ユーザ辞書31Bに含まれ、かつユーザ辞書31Aに含まれない「ジーン」と「遺伝子診断」の辞書データを登録候補として抽出し、ユーザ辞書31Aに対応する登録候補の記憶領域である登録候補記憶部32Aに記録する(この場合ユーザ辞書31Aが第2のユーザ辞書、ユーザ辞書31Bが第1のユーザ辞書に相当する)。またユーザ辞書31Bについては、ユーザ辞書31Aに含まれ、かつユーザ辞書31Bに含まれない「トランスポゾン」の辞書データを抽出し、ユーザ辞書31Bに対応する登録候補の記憶領域である登録候補記憶部32Bに格納する(この場合ユーザ辞書31Aが第1のユーザ辞書、ユーザ辞書31Bが第2のユーザ辞書に相当する)。
Next, the registration candidate extracting unit 22 compares the similarity 0.75 output by the similarity calculating unit 21 with a threshold value. If the threshold is 0.7, the similarity between the
これらの処理の結果として得られる登録候補記憶部32Aと登録候補記憶部32Bの例を図5(a)と図5(b)に示す。図5によると、登録候補記憶部32にはユーザ辞書に格納されていた辞書データの他にその辞書データが登録対象外であるかどうかを示す情報を格納する領域が確保されている。ここで「−」は登録対象外であるかどうかの検査が完了していないことを表し、「対象外」は過去に登録対象外と指定された辞書データであることを表している。すなわち辞書データAにおいて「ジーン」は未検査であるのに対して、「遺伝子診断」は以前にも共有すべき辞書データの候補として抽出されたことがあり、その後ユーザ辞書31Aの所有者であるユーザAに登録の要不要を問い合わせた結果、登録の必要なしと入力された経緯があるということを表している。
Examples of the registration candidate storage unit 32A and the registration candidate storage unit 32B obtained as a result of these processes are shown in FIGS. 5 (a) and 5 (b). According to FIG. 5, the registration
自然言語処理システム10は、上記の登録候補を抽出する処理を、ユーザ辞書記憶部31に格納されたユーザ辞書の二つの組み合わせ全てに対して繰り返すことで、すべてのユーザ辞書について登録候補を抽出し、登録候補記憶部32内の各々のユーザ辞書に対応する領域に抽出した登録候補を格納する。
The natural language processing system 10 extracts registration candidates for all user dictionaries by repeating the process of extracting the registration candidates for all two combinations of user dictionaries stored in the user
登録候補に含まれる辞書データをユーザ辞書に登録する処理では、ユーザ辞書登録手段24が、登録候補記憶部32から登録候補を取り出し、ユーザ辞書に登録するかどうかをユーザに問い合わせる。
例えばユーザ辞書Aの所有者であるユーザAが陽にこの処理を呼び出した場合を考える。ユーザ辞書登録手段23は、まず、登録候補記憶部32Aから登録候補を取り出し、その内容を検査する。ここで登録候補記憶部32Aの内容が図5(a)である場合を考える。ユーザ辞書登録手段24は、ここから「ジーン」と「遺伝子診断」の2つの辞書データを取り出し、これらの辞書データが登録対象外であるかどうかを検査して、登録対象外でない「ジーン」をユーザに対する登録要否の問い合わせの対象となる最終的な登録候補として選定する。
In the process of registering the dictionary data included in the registration candidate in the user dictionary, the user dictionary registration unit 24 takes out the registration candidate from the registration
For example, consider a case where user A who is the owner of user dictionary A explicitly calls this processing. First, the user dictionary registration unit 23 takes out registration candidates from the registration candidate storage unit 32A and inspects the contents. Here, consider the case where the contents of the registration candidate storage unit 32A are as shown in FIG. The user dictionary registration means 24 takes out two dictionary data of “gene” and “gene diagnosis” from here, checks whether these dictionary data are out of registration, and selects “gene” which is not out of registration. It is selected as a final registration candidate to be inquired about whether or not registration is necessary for the user.
さらにユーザ辞書登録手段24は、「ジーン」に対応する登録情報を出力装置4に表示し、登録するかどうかをユーザAに問い合わせる。図6にユーザに対する問い合わせ画面の例を示す。画面上部には登録候補をユーザ辞書に登録するか否かを問うための表示として「下記の辞書データがユーザ辞書への登録候補として検出されました。ユーザ辞書に登録しますか?」という文字列61が表示されている。リストボックス63には、登録候補の辞書データとユーザが質問に対する回答を入力するためのラジオボタン62a、62b、62cが表示されている。画面下部には、入力を確定またはキャンセルするためのボタン64および65が表示されている。
ここでユーザAが「ジーン」の「登録する」のラジオボタン62aをチェックして「実行」ボタン64を押した場合、ユーザ辞書登録手段23は、ユーザ辞書31Aに「ジーン」の辞書データを登録し、登録候補記憶部32Aの中の「ジーン」の辞書データを削除する。
またユーザAが「登録しない」のラジオボタン61bをチェックして「実行」ボタン64を押した場合、ユーザ辞書登録手段23は、登録候補記憶部32Aの「ジーン」の辞書データの登録対象外の欄に「対象外」の情報を書き込む。
ユーザAが「保留」のラジオボタン62cをチェックして「実行」ボタン64を押した場合と、ラジオボタンのチェック状態がどのようであれ「キャンセル」ボタン65を押した場合は、ユーザ辞書登録手段23は、何もしない。
Further, the user dictionary registration unit 24 displays registration information corresponding to “gene” on the
When the user A checks the “Register”
When the user A checks the radio button 61b of “not registered” and presses the “execute” button 64, the user dictionary registration unit 23 is not subject to registration of the dictionary data of “gene” in the registration candidate storage unit 32A. Write “Not applicable” information in the column.
When the user A checks the “pending” radio button 62c and presses the “execute” button 64, or presses the “cancel” button 65 whatever the radio button is checked, the user dictionary registration means 23 does nothing.
図6では登録するかどうかを指定するユーザインターフェイスにラジオボタンを用いる例を示したが、図7のようにチェックボックスを用いてもよい。図7の場合、辞書データ「ジーン」のチェックボックス66がチェックされていれば、ユーザ辞書登録手段23は、ユーザ辞書31Aに「ジーン」の辞書データを登録し、登録候補記憶部32Aの中の「ジーン」の辞書データを削除する。
辞書データ「ジーン」のチェックボックス66がチェックされていない場合、ユーザ辞書登録手段23は、登録候補記憶部32Aの「ジーン」の辞書データの登録対象外の欄に「対象外」の情報を書き込む。
Although FIG. 6 shows an example in which a radio button is used for a user interface for specifying whether to register, a check box may be used as shown in FIG. In the case of FIG. 7, if the check box 66 for the dictionary data “gene” is checked, the user dictionary registration means 23 registers the dictionary data for “gene” in the
When the dictionary data “gene” check box 66 is not checked, the user dictionary registration unit 23 writes the information “not subject” to the non-registration column of the dictionary data “gene” in the registration candidate storage unit 32A. .
次に、自然言語処理システム10の第2の具体的な動作例について説明する。
この例では、特に自然言語処理手段24が機械翻訳処理を行なうものとし、図1のユーザ辞書31A、ユーザ辞書31Bの二つのユーザ辞書から各々の登録候補を抽出し、この登録候補に含まれる辞書データをユーザ辞書31Aおよびユーザ辞書31Bに登録する動作について説明する。
図8(a)にユーザ辞書31Aの内容を、図8(b)にユーザ辞書31Bのデータ内容を示す。図4(a)、図4(b)と同様にユーザ辞書31Aとユーザ辞書31Bの2つのユーザ辞書の内容が表形式で示されているが、さらに個々の辞書データに対して分類情報が記録されている。ユーザ辞書31Aには「遺伝子関連」という分類情報が設定された辞書データが登録されており、ユーザ辞書31Bには「遺伝子基礎」という分類情報が設定された辞書データと「遺伝子応用」という分類情報が設定された辞書データが登録されている。
ここで分類情報としては、例えば、各々のユーザが場面に応じてユーザ辞書内の各辞書データを使い分ける目的で設定した情報を用いても良い。
Next, a second specific operation example of the natural language processing system 10 will be described.
In this example, it is assumed that the natural language processing means 24 performs machine translation processing in particular, and each registration candidate is extracted from the two
FIG. 8A shows the contents of the
Here, as the classification information, for example, information set for the purpose of selectively using each dictionary data in the user dictionary according to the scene may be used.
登録候補を抽出する処理では、類似度計算手段21が、ユーザ辞書31Aとユーザ辞書31Bに含まれる辞書データ集合の間の類似度を計算する。類似度計算手段21は、個々のユーザ辞書を同一の分類情報を持つ辞書データの集合に分割してその辞書データ集合の組を取り出す。ここでユーザ辞書31Aからは分類情報が「遺伝子関連」である10個の辞書データからなる「遺伝子関連」辞書データ集合を取り出すことができ、またユーザ辞書31Bからは分類情報が「遺伝子基礎」である9個の辞書データからなる「遺伝子基礎」辞書データ集合と、分類情報が「遺伝子応用」である2個の辞書データからなる「遺伝子応用」辞書データ集合を取り出すことができる。
In the process of extracting registration candidates, the similarity calculation means 21 calculates the similarity between the dictionary data sets included in the
次に類似度計算手段21は、各々の辞書データ集合の組に対して類似度を計算する。例えば第1の具体的動作例で示した類似度計算法を用いると、「遺伝子関連」辞書データ集合と「遺伝子基礎」辞書データ集合の間の類似度は8/11=0.73、「遺伝子関連」辞書データ集合と「遺伝子応用」辞書データ集合の間の類似度は1/11=0.09となる。 Next, the similarity calculation means 21 calculates the similarity for each set of dictionary data sets. For example, using the similarity calculation method shown in the first specific operation example, the similarity between the “gene related” dictionary data set and the “gene basis” dictionary data set is 8/11 = 0.73, “gene The similarity between the “related” dictionary data set and the “gene application” dictionary data set is 1/11 = 0.09.
次に登録候補抽出手段22は、類似度計算手段21が出力した類似度と閾値とを比較する。ここで閾値が0.7であったとすると、「遺伝子関連」辞書データ集合と「遺伝子基礎」辞書データ集合の類似度がこの値以上になるため、この組から共有すべき辞書データを抽出する。
ここでは、まずユーザ辞書Aについては、「遺伝子基礎」辞書データ集合に含まれ、かつ「遺伝子関連」辞書データ集合に含まれない「ジーン」の辞書データを抽出し、ユーザ辞書31Aに登録すべき登録候補の記憶領域である登録候補記憶部32Aに格納する。またユーザ辞書32Bについては、「遺伝子関連」辞書データ集合に含まれ、かつ「遺伝子基礎」辞書データ集合に含まれない「トランスポゾン」の辞書データを抽出し、ユーザ辞書32Bに登録すべき登録候補の記憶領域である登録候補記憶部32Bに格納する。これらの処理の結果として得られる登録候補記憶部32Aと登録候補記憶部32Bの例を図9(a)と図9(b)に示す。図5(a)、図5(b)と同様に、抽出された辞書データと、その辞書データが登録対象外であるか否かを示す情報が記録されている。
Next, the registration candidate extraction unit 22 compares the similarity output from the similarity calculation unit 21 with a threshold value. If the threshold value is 0.7, the similarity between the “gene related” dictionary data set and the “gene basis” dictionary data set is equal to or greater than this value, and dictionary data to be shared is extracted from this set.
Here, first, for the user dictionary A, the “gene” dictionary data included in the “gene basis” dictionary data set and not included in the “gene related” dictionary data set should be extracted and registered in the
登録候補を抽出する処理では、ユーザ辞書記憶部31に格納されたユーザ辞書の全辞書データ集合の組み合わせ全てに対して本処理を繰り返すことで、各々のユーザ辞書に登録すべき辞書データの候補を抽出し、登録候補記憶部32の各々に対応する領域に抽出した辞書データを格納する。
なお抽出された辞書データを登録する処理は第1の具体的動作例の場合と同じであるため、説明を省略する。
In the process of extracting registration candidates, by repeating this process for all combinations of all dictionary data sets of user dictionaries stored in the user
Note that the process of registering the extracted dictionary data is the same as in the case of the first specific operation example, and thus description thereof is omitted.
以上のように、自然言語処理システム10では、類似度計算手段21が個々のユーザ辞書の間の類似度を算出し、この類似度に基づいて登録候補抽出手段22が辞書データを共有すべき相手を選別するように構成されているため、ユーザ辞書の単位で柔軟に適切な共有相手を見つけることができる。
また、類似度計算手段21が、個々のユーザ辞書の間の類似度をその都度計算するため、その時点で最適な共有相手を見つけることができる。このため、共有すべき辞書データを適切に抽出することができる。
As described above, in the natural language processing system 10, the similarity calculating unit 21 calculates the similarity between individual user dictionaries, and the registration candidate extracting unit 22 is to share the dictionary data based on the similarity. Therefore, it is possible to flexibly find an appropriate sharing partner for each user dictionary.
Moreover, since the similarity calculation means 21 calculates the similarity between individual user dictionaries each time, the most suitable sharing partner can be found at that time. For this reason, dictionary data to be shared can be appropriately extracted.
本発明は、自然言語処理システム10の各機能をコンピュータに実行させるプログラムとしても実施することができる。
このような実施形態を図10に示す。
コンピュータ8は、入力装置1、ハードディスク装置等の記憶装置3、出力装置4、RAM(Random Access Memory)等の主記憶装置7、前記の各装置を制御する機能と演算機能とを備えたCPU5を備えている。
主記憶装置7に記憶された自然言語処理用プログラム6は、CPU5に読み込まれCPU5により実行されてコンピュータ8の動作を制御し、記憶装置3にユーザ辞書記憶部31と登録候補記憶部32を生成する。また、自然言語処理用プログラム6はCPU5を図1のデータ処理装置2として動作させ、コンピュータ8を自然言語処理システム10として動作させる。
The present invention can also be implemented as a program that causes a computer to execute each function of the natural language processing system 10.
Such an embodiment is shown in FIG.
The
The natural
本発明によれば、入力された仮名文字列を漢字仮名混じり文字列に変換する仮名漢字変換装置や、入力された第一の言語の文字列を第二の言語の文字列に変換する機械翻訳装置、入力された音声信号を文字列に変換する音声認識装置、入力された文字列を音声信号に変換する音声合成装置をコンピュータに実現するためのプログラムといった用途に適用できる。また自然言語処理で用いる辞書の作成を支援する辞書作成支援装置をコンピュータに実現するためのプログラムといった用途にも適用できる。 According to the present invention, a kana-kanji conversion device that converts an input kana character string into a kanji-kana mixed character string, or a machine translation that converts an input first language character string into a second language character string The present invention can be applied to applications such as an apparatus, a speech recognition device that converts an input speech signal into a character string, and a program for realizing a speech synthesis device that converts an input character string into a speech signal. Further, the present invention can be applied to a use of a program for realizing a dictionary creation support apparatus that supports creation of a dictionary used in natural language processing on a computer.
1 入力装置
2 データ処理装置
3 記憶装置
4 出力装置
5 CPU
6 自然言語処理用プログラム
7 主記憶装置
8 コンピュータ
10 自然言語処理システム
21 類似度計算手段
22 登録候補抽出手段
23 ユーザ辞書登録手段
24 自然言語処理手段
31 ユーザ辞書記憶部
32 登録候補記憶部
1
6 Natural language processing program 7
Claims (13)
辞書データを共有する相手のユーザ辞書である第1のユーザ辞書と辞書データの登録先となるユーザ辞書である第2のユーザ辞書の類似度を計算する類似度計算手段と、
前記類似度が予め定められた閾値以上である場合に、前記第1のユーザ辞書に含まれ、かつ、前記第2のユーザ辞書に含まれない辞書データを前記第2のユーザ辞書に対する登録候補として抽出する登録候補抽出手段と、
前記登録候補に含まれる辞書データを前記第2のユーザ辞書に登録するユーザ辞書登録手段とを備えたことを特徴とした自然言語処理システム。 In a natural language processing system for performing natural language processing using a user dictionary storing dictionary data including a word and language information corresponding to the word,
Similarity calculating means for calculating the similarity between a first user dictionary that is a user dictionary of a partner to share dictionary data and a second user dictionary that is a user dictionary to which dictionary data is registered;
When the similarity is equal to or higher than a predetermined threshold, dictionary data included in the first user dictionary and not included in the second user dictionary is registered as a registration candidate for the second user dictionary. Registration candidate extraction means for extracting;
A natural language processing system comprising: user dictionary registration means for registering dictionary data included in the registration candidates in the second user dictionary.
前記類似度計算手段は、前記第1のユーザ辞書に記憶された辞書データの中の同一の前記分類情報を持つ辞書データからなる第1の辞書データ集合と前記第2のユーザ辞書に記憶された辞書データの中の同一の分類情報を持つ辞書データからなる第2辞書データ集合の類似度である辞書データ集合類似度に基づいて前記類似度を計算し、
前記登録候補抽出手段は、前記第1の辞書データ集合に含まれ、かつ、前記第2の辞書データ集合に含まれない辞書データを前記登録候補として抽出する
ことを特徴とした請求項1に記載の自然言語処理システム。 The dictionary data includes classification information;
The similarity calculation means is stored in the second user dictionary and the first dictionary data set composed of dictionary data having the same classification information in the dictionary data stored in the first user dictionary. Calculating the similarity based on the dictionary data set similarity which is the similarity of the second dictionary data set consisting of dictionary data having the same classification information in the dictionary data;
The registration candidate extraction unit extracts dictionary data included in the first dictionary data set and not included in the second dictionary data set as the registration candidates. Natural language processing system.
辞書データを共有する相手のユーザ辞書である第1のユーザ辞書と辞書データの登録先となるユーザ辞書である第2のユーザ辞書を記憶装置から読み出して前記第1のユーザ辞書と前記第2のユーザ辞書との間の類似度を計算する類似度計算工程と、
前記類似度が予め定められた閾値以上である場合に作動し、前記第1のユーザ辞書に含まれ、かつ、前記第2のユーザ辞書に含まれない辞書データを前記第2のユーザ辞書に対する登録候補として抽出し、この登録候補を記憶装置に記録する登録候補抽出工程と、
前記登録候補を前記記憶装置から読み出して、前記登録候補に含まれる辞書データを前記第2のユーザ辞書に登録するユーザ辞書登録工程とを備えたことを特徴とした自然言語処理方法。 In a natural language processing method for performing natural language processing using a user dictionary storing dictionary data including a word and language information for the word,
A first user dictionary that is a user dictionary of a partner to which dictionary data is shared and a second user dictionary that is a user dictionary to which dictionary data is registered are read from the storage device, and the first user dictionary and the second user dictionary are read out. A similarity calculation step of calculating the similarity between the user dictionary and
Operates when the similarity is greater than or equal to a predetermined threshold, and registers dictionary data included in the first user dictionary and not included in the second user dictionary in the second user dictionary A registration candidate extraction step of extracting as a candidate and recording the registration candidate in a storage device;
A natural language processing method comprising: a user dictionary registration step of reading the registration candidates from the storage device and registering dictionary data included in the registration candidates in the second user dictionary.
コンピュータに、
辞書データを共有する相手のユーザ辞書である第1のユーザ辞書と辞書データの登録先となるユーザ辞書である第2のユーザ辞書を記憶装置から読み出して前記第1のユーザ辞書と前記第2のユーザ辞書との間の類似度を計算する類似度計算機能と、
前記類似度が予め定められた閾値以上である場合に前記第1のユーザ辞書に含まれ、かつ、前記第2のユーザ辞書に含まれない辞書データを前記第2のユーザ辞書に対する登録候補として抽出し、この登録候補を記憶装置に記録する登録候補抽出機能と、
前記登録候補を前記記憶装置から読み出して、前記登録候補に含まれる辞書データを前記第2のユーザ辞書に登録するユーザ辞書登録機能とを実行させることを特徴とした自然言語処理プログラム。 In a natural language processing program for performing natural language processing using a user dictionary storing dictionary data including a word and language information for the word,
On the computer,
A first user dictionary that is a user dictionary of a partner to which dictionary data is shared and a second user dictionary that is a user dictionary to which dictionary data is registered are read from the storage device, and the first user dictionary and the second user dictionary are read out. A similarity calculation function for calculating the similarity between the user dictionary and
When the similarity is equal to or higher than a predetermined threshold, dictionary data included in the first user dictionary and not included in the second user dictionary is extracted as a registration candidate for the second user dictionary. A registration candidate extraction function for recording the registration candidates in a storage device;
A natural language processing program that reads a registration candidate from the storage device and executes a user dictionary registration function for registering dictionary data included in the registration candidate in the second user dictionary.
前記類似度計算機能は、前記第1のユーザ辞書に記憶された辞書データの中の同一の前記分類情報を持つ辞書データからなる第1の辞書データ集合と前記第2のユーザ辞書に記憶された辞書データの中の同一の分類情報を持つ辞書データからなる第2辞書データ集合の類似度である辞書データ集合類似度に基づいて前記類似度を計算するものであり、
前記登録候補抽出機能は、前記第1の辞書データ集合に含まれ、かつ、前記第2の辞書データ集合に含まれない辞書データを前記登録候補として抽出するものである
ことを特徴とした請求項8に記載の自然言語処理プログラム。 The dictionary data includes classification information;
The similarity calculation function is stored in the first dictionary data set consisting of dictionary data having the same classification information in the dictionary data stored in the first user dictionary and in the second user dictionary. Calculating the similarity based on the dictionary data set similarity which is the similarity of the second dictionary data set consisting of dictionary data having the same classification information in the dictionary data;
The registration candidate extraction function is for extracting dictionary data included in the first dictionary data set and not included in the second dictionary data set as the registration candidates. The natural language processing program according to 8.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005268034A JP4792885B2 (en) | 2005-09-15 | 2005-09-15 | Natural language processing system, natural language processing method, natural language processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005268034A JP4792885B2 (en) | 2005-09-15 | 2005-09-15 | Natural language processing system, natural language processing method, natural language processing program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007080019A true JP2007080019A (en) | 2007-03-29 |
JP4792885B2 JP4792885B2 (en) | 2011-10-12 |
Family
ID=37940252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005268034A Expired - Fee Related JP4792885B2 (en) | 2005-09-15 | 2005-09-15 | Natural language processing system, natural language processing method, natural language processing program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4792885B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007188199A (en) * | 2006-01-12 | 2007-07-26 | Fujitsu Ltd | Method, information processing program, device, and system for presenting complement word/phrase and terminal device for device presenting complement word/phrase |
JP2011191332A (en) * | 2010-03-11 | 2011-09-29 | Fujitsu Ltd | Voice-synthesizing device, voice-synthesizing method, and voice-synthesizing program |
JP2015172854A (en) * | 2014-03-12 | 2015-10-01 | 日本電気株式会社 | User dictionary management device, user dictionary management method, and user dictionary management program |
CN111180082A (en) * | 2019-12-30 | 2020-05-19 | 泰康保险集团股份有限公司 | Medical information system data initialization method, system, device and storage medium |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003316746A (en) * | 2002-04-25 | 2003-11-07 | Toshiba Corp | Person recognition system |
JP2004287710A (en) * | 2003-03-20 | 2004-10-14 | Fuji Xerox Co Ltd | Language processing system |
-
2005
- 2005-09-15 JP JP2005268034A patent/JP4792885B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003316746A (en) * | 2002-04-25 | 2003-11-07 | Toshiba Corp | Person recognition system |
JP2004287710A (en) * | 2003-03-20 | 2004-10-14 | Fuji Xerox Co Ltd | Language processing system |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007188199A (en) * | 2006-01-12 | 2007-07-26 | Fujitsu Ltd | Method, information processing program, device, and system for presenting complement word/phrase and terminal device for device presenting complement word/phrase |
JP2011191332A (en) * | 2010-03-11 | 2011-09-29 | Fujitsu Ltd | Voice-synthesizing device, voice-synthesizing method, and voice-synthesizing program |
JP2015172854A (en) * | 2014-03-12 | 2015-10-01 | 日本電気株式会社 | User dictionary management device, user dictionary management method, and user dictionary management program |
CN111180082A (en) * | 2019-12-30 | 2020-05-19 | 泰康保险集团股份有限公司 | Medical information system data initialization method, system, device and storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP4792885B2 (en) | 2011-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11727203B2 (en) | Information processing system, feature description method and feature description program | |
US20120192066A1 (en) | Selecting portions of computer-accessible documents for post-selection processing | |
KR102285142B1 (en) | Apparatus and method for recommending learning data for chatbots | |
KR20200038984A (en) | Synonym dictionary creation device, synonym dictionary creation program, and synonym dictionary creation method | |
JP4792885B2 (en) | Natural language processing system, natural language processing method, natural language processing program | |
JP2002117027A (en) | Feeling information extracting method and recording medium for feeling information extracting program | |
US20200387505A1 (en) | Information processing system, feature description method and feature description program | |
KR20190101718A (en) | User review based rating re-calculation apparatus and method, storage media storing the same | |
JP2007025939A (en) | Multilingual document retrieval device, multilingual document retrieval method and program for retrieving multilingual document | |
KR102519955B1 (en) | Apparatus and method for extracting of topic keyword | |
JP7216627B2 (en) | INPUT SUPPORT METHOD, INPUT SUPPORT SYSTEM, AND PROGRAM | |
CN114185958A (en) | Blood relationship generation method and device, computer equipment and storage medium | |
JP2007199876A (en) | Question answering system, question answering processing method, and question answering program | |
US20090249197A1 (en) | Document proofreading support method and document proofreading support apparatus | |
JP4015661B2 (en) | Named expression extraction device, method, program, and recording medium recording the same | |
JP2006065651A (en) | Program, apparatus and method for retrieving trademark name | |
CN106250354A (en) | Process the information processor of document, information processing method and program | |
JP6804913B2 (en) | Table structure estimation system and method | |
JP3764618B2 (en) | Document information extraction device and document classification device | |
JP7358838B2 (en) | Information processing device and information processing program | |
JP2008210229A (en) | Device, method and program for retrieving intellectual property information | |
JP2007140889A (en) | System for extracting appropriateness determination sheet for export management | |
WO2022049693A1 (en) | Program creation device and method | |
JP6980616B2 (en) | Computer system and learning method | |
KR102162779B1 (en) | Text mining method, text mining program and text mining apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080818 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110202 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110404 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110628 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110711 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140805 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |