JP6311367B2 - User dictionary management device, user dictionary management method, and user dictionary management program - Google Patents
User dictionary management device, user dictionary management method, and user dictionary management program Download PDFInfo
- Publication number
- JP6311367B2 JP6311367B2 JP2014048331A JP2014048331A JP6311367B2 JP 6311367 B2 JP6311367 B2 JP 6311367B2 JP 2014048331 A JP2014048331 A JP 2014048331A JP 2014048331 A JP2014048331 A JP 2014048331A JP 6311367 B2 JP6311367 B2 JP 6311367B2
- Authority
- JP
- Japan
- Prior art keywords
- conversion
- user
- user dictionary
- information
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Description
本願発明は、言語変換処理装置が言語変換処理を行う際に参照するユーザ辞書情報を管理するユーザ辞書管理装置等に関する。 The present invention relates to a user dictionary management device that manages user dictionary information that is referred to when a language conversion processing device performs language conversion processing.
近年、日本語から英語への翻訳処理、あるいは、仮名文字から漢字への変換処理等の言語変換処理を行う、様々な言語変換処理装置が利用されている。これらの言語変換処理装置は、言語変換処理を行う際に、変換前の変換対象ワードと、変換後の変換候補ワードとを関連付けた辞書データを有する変換辞書を参照する。係る変換辞書には、言語変換処理装置を使用するユーザが共通して使用する共通辞書の他に、各ユーザが個別に使用するユーザ辞書がある。共通辞書は、ユーザが共通して使用するような変換対象ワードに関する変換辞書である。一方、ユーザ辞書は、共通辞書に登録されていない変換対象ワードであって、各ユーザが変換処理する文書の特性上、ユーザ個別に使用されるような、変換対象ワードに関する変換辞書である。 In recent years, various language conversion processing apparatuses that perform language conversion processing such as Japanese-to-English translation processing or kana-character to kanji conversion processing have been used. When performing these language conversion processes, these language conversion processing devices refer to a conversion dictionary having dictionary data in which a conversion target word before conversion and a conversion candidate word after conversion are associated with each other. Such conversion dictionaries include user dictionaries used individually by each user, in addition to common dictionaries commonly used by users who use the language conversion processing device. The common dictionary is a conversion dictionary related to conversion target words that are commonly used by users. On the other hand, the user dictionary is a conversion dictionary related to conversion target words that are not registered in the common dictionary and are used individually for each user due to the characteristics of the document to be converted by each user.
一般的な言語変換処理装置においては、各ユーザが言語変換処理を行う度に、新しい辞書データが、係るユーザ辞書へ登録される。そして、このユーザ辞書に登録された辞書データが増加するに従い、各ユーザが行う言語変換処理の精度が向上する。したがって、係るユーザ辞書に対して辞書データをより効率的に登録する技術に対する期待が高まってきている、
このような技術に関連する技術として、特許文献1には、第1のユーザ辞書と第2のユーザ辞書に関する類似度を算出し、この類似度が閾値以上である場合は、第1のユーザ辞書に含まれ第2のユーザ辞書に含まれない辞書データを、第2のユーザ辞書に登録するシステムが開示されている。
In a general language conversion processing apparatus, each time a user performs language conversion processing, new dictionary data is registered in the user dictionary. As the dictionary data registered in the user dictionary increases, the accuracy of language conversion processing performed by each user improves. Therefore, there is an increasing expectation for a technique for registering dictionary data more efficiently with respect to such a user dictionary.
As a technique related to such a technique, Patent Document 1 calculates similarity between the first user dictionary and the second user dictionary, and when the similarity is equal to or greater than a threshold, the first user dictionary A system for registering in the second user dictionary the dictionary data included in the second user dictionary but not in the second user dictionary is disclosed.
通常、言語変換処理において、1つの変換対象ワードに関する変換候補ワードは、1つに定まるわけではない。一人のユーザが行う言語変換処理に関しても、1つの変換対象ワードが、時と場合によって、異なるワードに変換される。したがって、一般的な変換辞書は、1つの変換対象ワードに1以上の変換候補ワードを関連付けた変換指示レコードを、係る辞書データとして有している。 Usually, in the language conversion process, the number of conversion candidate words related to one conversion target word is not limited to one. Regarding the language conversion processing performed by one user, one conversion target word is converted into a different word depending on time and circumstances. Therefore, a general conversion dictionary has, as such dictionary data, a conversion instruction record in which one or more conversion candidate words are associated with one conversion target word.
1つの変換対象ワードに複数の変換候補ワードが関連付けられている場合、各変換候補ワードに変換される確率は異なる。したがって、係る変換指示レコードが、各変換候補ワードと、当該変換候補ワードへの変換確率を基にした変換優先順位が示す値を関連付けて記憶することにより、言語変換処理に関する効率が向上する。例えば、仮名漢字変換システムでは、複数の変換候補である漢字を、係る変換優先順位が高い順に画面表示する。これにより、ユーザは、仮名漢字変換処理を効率的に行うことができる。 When a plurality of conversion candidate words are associated with one conversion target word, the probability of conversion into each conversion candidate word is different. Therefore, the conversion instruction record associates and stores each conversion candidate word and the value indicated by the conversion priority based on the conversion probability to the conversion candidate word, thereby improving the efficiency of the language conversion process. For example, in the Kana-Kanji conversion system, a plurality of conversion candidates, Kanji, are displayed on the screen in descending order of conversion priority. Thereby, the user can efficiently perform the kana-kanji conversion process.
特許文献1が開示した技術では、第1のユーザ辞書に登録されている辞書データを、第2のユーザ辞書に新規登録する際、第1及び第2のユーザ辞書に関する類似度が閾値以上である場合は、辞書データを一律に登録する。そして、係る技術は、この類似度が閾値未満である場合は、辞書データを一律に登録しない。しかしながら、この類似度が閾値未満である場合であっても、第2のユーザ辞書を使用するユーザが行う言語変換処理が、第1のユーザ辞書に登録済である辞書データを使用しないとは限らない。この場合、第2のユーザ辞書を使用するユーザが行う言語変換処理は、変換優先順位としては低いものの、第1のユーザ辞書に登録済である辞書データを使用する可能性がある。したがって、特許文献1が開示した技術は、特定のユーザ辞書に未登録である辞書データを、他のユーザ辞書から登録する際の柔軟性が十分にあるとはいえない。 In the technique disclosed in Patent Literature 1, when dictionary data registered in the first user dictionary is newly registered in the second user dictionary, the degree of similarity regarding the first and second user dictionaries is equal to or greater than a threshold value. In this case, the dictionary data is registered uniformly. Then, the technique does not register the dictionary data uniformly when the similarity is less than the threshold value. However, even if this similarity is less than the threshold value, the language conversion processing performed by the user who uses the second user dictionary does not always use the dictionary data registered in the first user dictionary. Absent. In this case, the language conversion processing performed by the user who uses the second user dictionary may use dictionary data registered in the first user dictionary although the conversion priority is low. Therefore, the technique disclosed in Patent Literature 1 cannot be said to have sufficient flexibility when registering unregistered dictionary data in a specific user dictionary from another user dictionary.
本願発明の主たる目的は、この問題を解決した、ユーザ辞書管理装置、ユーザ辞書管理方法、及び、ユーザ辞書管理プログラムを提供することである。 A main object of the present invention is to provide a user dictionary management device, a user dictionary management method, and a user dictionary management program that solve this problem.
本願発明に係るユーザ辞書管理装置は、言語変換処理装置がユーザ文書情報を言語変換処理する際に参照し、変換前のワードである変換対象ワードと、変換後のワードである1以上の変換候補ワードと、前記変換候補ワードに関する変換優先順位が示す値とを関連付けて記憶する変換指示レコード、を包含する複数のユーザ辞書情報の中の、第一及び第二のユーザ辞書情報に関する類似度が示す値を、所定の基準に基づき算出する算出手段と、前記第一のユーザ辞書情報が包含する前記変換指示レコードが示す情報を、前記類似度が示す値に基づいて、前記変換優先順位が示す値と関連付けて、前記第二のユーザ辞書情報に登録する登録手段と、を備えることを特徴とする。 The user dictionary management device according to the present invention refers to a language conversion processing device when language conversion processing is performed on user document information, and includes a conversion target word that is a word before conversion and one or more conversion candidates that are converted words. The degree of similarity related to the first and second user dictionary information among a plurality of user dictionary information including a word and a conversion instruction record that stores a value indicated by the conversion priority related to the conversion candidate word. A value indicated by the conversion priority based on a value indicated by the similarity based on a value indicated by the similarity and a calculation means for calculating a value based on a predetermined criterion and information indicated by the conversion instruction record included in the first user dictionary information And registration means for registering in the second user dictionary information.
上記目的を達成する他の見地において、本願発明のユーザ辞書管理方法は、情報処理装置によって、言語変換処理装置がユーザ文書情報を言語変換処理する際に参照し、変換前のワードである変換対象ワードと、変換後のワードである1以上の変換候補ワードと、前記変換候補ワードに関する変換優先順位が示す値とを関連付けて記憶する変換指示レコード、を包含する複数のユーザ辞書情報の中の、第一及び第二のユーザ辞書情報に関する類似度が示す値を、所定の基準に基づき算出し、前記第一のユーザ辞書情報が包含する前記変換指示レコードが示す情報を、前記類似度が示す値に基づいて、前記変換優先順位が示す値と関連付けて、前記第二のユーザ辞書情報に登録することを特徴とする。 In another aspect of achieving the above object, the user dictionary management method of the present invention refers to a conversion target that is a word before conversion, which is referred to when the language conversion processing device performs language conversion processing on the user document information by the information processing device. Among a plurality of user dictionary information including a word, one or more conversion candidate words that are converted words, and a conversion instruction record that associates and stores a value indicated by a conversion priority for the conversion candidate word, A value indicated by the similarity between the first and second user dictionary information is calculated based on a predetermined criterion, and the information indicated by the conversion instruction record included in the first user dictionary information is a value indicated by the similarity. And registering it in the second user dictionary information in association with the value indicated by the conversion priority.
また、上記目的を達成する更なる見地において、本願発明に係るユーザ辞書管理プログラムは、言語変換処理装置がユーザ文書情報を言語変換処理する際に参照し、変換前のワードである変換対象ワードと、変換後のワードである1以上の変換候補ワードと、前記変換候補ワードに関する変換優先順位が示す値とを関連付けて記憶する変換指示レコード、を包含する複数のユーザ辞書情報の中の、第一及び第二のユーザ辞書情報に関する類似度が示す値を、所定の基準に基づき算出する算出処理と、前記第一のユーザ辞書情報が包含する前記変換指示レコードが示す情報を、前記類似度が示す値に基づいて、前記変換優先順位が示す値と関連付けて、前記第二のユーザ辞書情報に登録する登録処理と、をコンピュータに実行させることを特徴とする。 Further, in a further aspect of achieving the above object, the user dictionary management program according to the present invention refers to a conversion target word that is a word before conversion, which is referred to when the language conversion processing device performs language conversion processing of user document information. The first of the plurality of user dictionary information including one or more conversion candidate words that are converted words and a conversion instruction record that stores the conversion priority order related to the conversion candidate words in association with each other. The similarity indicates the calculation process for calculating the value indicated by the similarity regarding the second user dictionary information based on a predetermined criterion, and the information indicated by the conversion instruction record included in the first user dictionary information. And causing the computer to execute a registration process for registering in the second user dictionary information in association with the value indicated by the conversion priority based on the value. To.
更に、本発明は、係るユーザ辞書管理プログラム(コンピュータプログラム)が格納された、コンピュータ読み取り可能な、不揮発性の記憶媒体によっても実現可能である。 Furthermore, the present invention can also be realized by a computer-readable non-volatile storage medium storing such a user dictionary management program (computer program).
本願発明は、言語変換処理装置が使用するユーザ辞書に対する辞書情報の登録を、効率的かつ柔軟に行うことを可能とする。 The present invention makes it possible to efficiently and flexibly register dictionary information for a user dictionary used by the language conversion processing device.
以下、本願発明の実施の形態について図面を参照して詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings.
<第1の実施形態>
図1は、第1の実施形態に係るユーザ辞書管理システム1の構成を概念的に示すブロック図である。本実施形態に係るユーザ辞書管理システム1は、ユーザ辞書管理装置10、言語変換装置20、ユーザ入力文書データ格納部30、及び、ユーザ出力文書データ格納部40を有する。
<First Embodiment>
FIG. 1 is a block diagram conceptually showing the structure of the user dictionary management system 1 according to the first embodiment. The user dictionary management system 1 according to the present embodiment includes a user
以下に説明する本実施形態では、一例として、5人のユーザ(ユーザA乃至E)について処理する場合について説明する。即ち、ユーザ入力文書データ格納部30は、5人のユーザA乃至Eがユーザ辞書管理システム1を使用して言語変換処理を行う際の入力データである入力文書データ(入力文書情報)300乃至304を格納している。すなわち、
・ユーザA:入力文書データ300、
・ユーザB:入力文書データ301、
・ユーザC:入力文書データ302、
・ユーザD:入力文書データ303、
・ユーザE:入力文書データ304。
In the present embodiment described below, a case where processing is performed for five users (users A to E) will be described as an example. That is, the user input document
User A:
User B:
User C:
User D:
User E:
尚、ユーザ辞書管理システム1を使用するユーザは5人に限定されるわけではなく、5人のユーザは一例にすぎない。ユーザ入力文書データ格納部30は、例えば、電子メモリあるいは磁気ディスク等の記憶装置である。
Note that the number of users using the user dictionary management system 1 is not limited to five, but the five users are merely examples. The user input document
ユーザ出力文書データ格納部40は、言語変換処理装置20が入力文書データ300乃至304を言語変換処理して出力したデータである出力文書データ400乃至404を格納している。すなわち、
・ユーザA:出力文書データ400、
・ユーザB:入力文書データ401、
・ユーザC:入力文書データ402、
・ユーザD:入力文書データ403、
・ユーザE:入力文書データ404。
The user output document
User A:
User B:
User C:
User D:
User E:
ユーザ出力文書データ格納部40は、例えば、電子メモリあるいは磁気ディスク等の記憶装置である。
The user output document
言語変換処理装置20は、入力文書データ300乃至304を、それぞれ、言語変換処理して、出力文書データ400乃至404として出力する。言語変換処理装置20は、例えば、英文和訳等の翻訳処理を行う場合もあれば、仮名漢字変換処理を行う場合もある。
The language
言語変換処理装置20は、ユーザ辞書データ格納部21を備えている。ユーザ辞書データ格納部21は、ユーザA乃至Eがユーザ辞書管理システム1を使用して言語変換処理を行う際に使用するユーザ辞書である、辞書データ(辞書情報)210乃至214を格納している。すなわち、
・ユーザA:辞書データ210、
・ユーザB:辞書データ211、
・ユーザC:辞書データ212、
・ユーザD:辞書データ213、
・ユーザE:辞書データ214。
The language
User A:
User B:
User C:
User
User E:
言語変換処理装置20は、入力文書データ300乃至304を言語変換処理する際に、それぞれ、辞書データ210乃至214を参照する。言語変換処理装置20は、汎用サーバ装置等の、あるいは、言語変換処理を専用に行う情報処理装置である。ユーザ辞書データ格納部21は、例えば、電子メモリあるいは磁気ディスク等の記憶装置である。
The language
ユーザ辞書管理装置10は、辞書データ210乃至214を更新管理する装置である。ユーザ辞書管理装置10は、算出部11、及び、登録部12を備えている。算出部11、及び、登録部12は、電子回路の場合もあれば、コンピュータプログラムとそのコンピュータプログラムに従って動作するプロセッサによって実現される場合もある。
The user
算出部11は、入力文書データ300乃至304に関して、各入力文書データ間の類似度が示す値を所定の基準に基づいて算出する。
The
本実施形態に係る入力文書データ間の類似度について、図3に例示する。ここで、ユーザA乃至Cの入力文書データ300乃至302が、ぞれぞれ、図3に示す内容の英文であったとする。このとき、言語変換処理装置20は、英文和訳を行う装置である。算出部11は、入力文書データ300乃至302の英文が含む単語に関して、入力文書データ300乃至302の少なくともいずれか2つ以上に含まれる単語を検出する。
FIG. 3 illustrates the similarity between input document data according to the present embodiment. Here, it is assumed that the
図3に示す例の場合、“Philippines”と“typhoon”の2つの単語が、ユーザAの入力文書データ300及びユーザBの入力文書データ301に、共通して含まれる単語である。尚、係る2つの単語以外には、入力文書データ300乃至302の少なくともいずれか2つ以上に含まれる単語は存在しない。この場合、この2つの単語を共通して含む、ユーザAの入力文書データ300とユーザBの入力文書データ301との間の類似度が示す値は大きいことになる。これに対して、ユーザAの入力文書データ300とユーザCの入力文書データ302との間、及び、ユーザBの入力文書データ301とユーザCの入力文書データ302との間の類似度が示す値は小さいことになる。算出部11は、例えば、2つの入力文書データが共有するワードが、その2つの入力文書データにおいて占める割合に基づき、係る類似度が示す値を算出する。
In the case of the example shown in FIG. 3, two words “Philippines” and “typoon” are commonly included in the
尚、算出部11は、tf(term frequency)−idf(inversedocument frequency)のアルゴリズムを用いて、文書ベクトルを作成することにより、係る類似度が示す値を算出してもよい。算出部11は、あるいは、潜在意味解析(Latent Semantic Analysis)を用いて、係る類似度が示す値を算出してもよい。
Note that the
算出部11は、入力文書データ300乃至304において、全ての2つの入力文書データの組み合わせに関する類似度が示す値を算出し、算出した結果である類似度管理情報110を生成する。類似度管理情報110の構成例を図4に示す。図4において、類似度管理情報110が示す値の単位はパーセントである。図4に示す例では、例えば、ユーザAの入力文書データ300とユーザBの入力文書データ301との間の類似度が示す値は、80%である。
In the
尚、算出部11は、入力文書データ300乃至304の少なくともいずれか、あるいは、辞書データ210乃至214の少なくともいずれかが更新されたことを検出して、その検出を行うたびに、類似度管理情報110を生成してもよい。あるいは、算出部11は、定期的に、もしくは、システム管理者等からの指示を契機として、類似度管理情報110を生成してもよい。
Each time the
登録部12は、算出部11が生成した類似度管理情報110を基に、優先順位管理情報120を生成する。優先順位管理情報120は、登録部12が特定のユーザに関するユーザ辞書データに未登録である辞書データを、他のユーザに関するユーザ辞書データから登録する際に、どのユーザ辞書データからの辞書データを、変換優先順位を高くして登録するかについて示す情報である。
The
優先順位管理情報120の構成例を図5に示す。図4に示す類似度管理情報110において、ユーザAの入力文書データ300に関する、入力文書データ301乃至304との間の類似度が示す値は、それぞれ、80%、10%、41%、及び、5%である。したがって、入力文書データ301乃至304を、ユーザAの入力文書データ300との類似度が高い順番に並べると、ユーザBの入力文書データ301、ユーザDの入力文書データ303、ユーザCの入力文書データ302、ユーザEの入力文書データ304となる。これにより、登録部12は、ユーザAに関する変換優先順位が、ユーザB、ユーザD、ユーザC、ユーザEの順番となること示す、優先順位管理情報120におけるレコードを生成する。登録部12は、ユーザB乃至Eに関しても同様に、優先順位管理情報120におけるレコードを生成する。
A configuration example of the priority management information 120 is shown in FIG. In the
登録部12は、生成した優先順位管理情報120に基づき、辞書データ400乃至404に対して、未登録である辞書データを登録する。ユーザ辞書データに対する辞書データの登録例を図6に示す。
The
図6は、登録部12が、ユーザAの辞書データ210に、未登録である辞書データを、辞書データ211乃至214から登録する場合の一例である。辞書データ210乃至214は、変換対象ワードと、変換候補ワードと、を関連付けた変換指示レコードを包含している。そして、この変換指示レコードは、変換候補ワードとして、1以上のワードを、変換優先順位と関連付けて記憶している。
FIG. 6 shows an example in which the
ユーザAの辞書データ210は、変換対象ワードである原語1に関する変換候補ワードとして、訳語1−1を定義し、変換対象ワードである原語2に関する変換候補ワードとして、変換優先順位が示す値が高い順番に、訳語2−1及び訳語2−2を定義しているものとする。登録部12は、ユーザAの辞書データ210が定義していない、変換対象ワードと変換候補ワードとの組み合わせについて、辞書データ211乃至214をサーチする。
The
図6に示す例では、原語1に関する、ユーザAの辞書データ210が定義していない変換候補ワードとして、ユーザCの辞書データ212が訳語1−3を定義し、ユーザDの辞書データ213が訳語1−2を定義し、ユーザEの辞書データ214が訳語1−4を定義している。登録部12は、優先順位管理情報120を参照し、ユーザAに関するこれらのユーザの変換優先順位が、ユーザD、ユーザC、及び、ユーザEの順番であることを確認する。
In the example shown in FIG. 6, as conversion candidate words that are not defined by the
そして、登録部12は、ユーザDの辞書データ213が定義した訳語1−2を、ユーザAの辞書データ210における、原語1に関する、変換優先順位が2位である変換候補ワードとして追加定義する。登録部12は、ユーザCの辞書データ212が定義した訳語1−3を、ユーザAの辞書データ210における、原語1に関する、変換優先順位が3位である変換候補ワードとして追加定義する。登録部12は、ユーザEの辞書データ214が定義した訳語1−4を、ユーザAの辞書データ210における、原語1に関する、変換優先順位が4位である変換候補ワードとして追加定義する。
Then, the
図6に示す例では、また、ユーザAの辞書データ210が定義していない変換対象ワードとして、ユーザBの辞書データ211及びユーザDの辞書データ213が原語3を定義している。ユーザBの辞書データ211は、原語3に関する変換候補ワードとして、訳語3−1を定義している。ユーザDの辞書データ213は、原語3に関する変換候補ワードとして、訳語3−2を定義している。登録部12は、優先順位管理情報120を参照し、ユーザAに関するこれらのユーザの変換優先順位が、ユーザB、及び、ユーザDの順番であることを確認する。
In the example shown in FIG. 6, user
そして、登録部12は、原語3を、ユーザAの辞書データ210における変換対象ワードとして追加定義する。登録部12は、ユーザBの辞書データ211が定義した訳語3−1を、ユーザAの辞書データ210における、原語3に関する、変換優先順位が1位である変換候補ワードとして追加定義する。登録部12は、ユーザDの辞書データ213が定義した訳語3−2を、ユーザAの辞書データ210における、原語3に関する、変換優先順位が2位である変換候補ワードとして追加定義する。
Then, the
さらに、図6には示していないが、例えば、特定の変換対象ワードに関して、辞書データ211乃至214の少なくともいずれかが、ユーザAの辞書データ210において未定義である、変換優先順位が異なる複数の変換候補ワードを定義している場合を考える。この場合、登録部12は、係る複数の変換候補ワードを、当該変換優先順位が示す順番を維持して、ユーザAの辞書データ210における、係る特定の変換対象ワードに関する変換候補ワードとして追加定義する。
Furthermore, although not shown in FIG. 6, for example, for a specific conversion target word, at least one of the
以上、図6を使用して、登録部12が、ユーザAの辞書データ210に、未登録である辞書データを、辞書データ211乃至214から登録する動作の一例を説明した。そして、登録部12は、ユーザB乃至Eのそれぞれの辞書データ211乃至214に、未登録である辞書データを登録する場合も、ユーザAの辞書データ210に登録する場合と同様の処理を行う。
As described above, an example of the operation in which the
尚、登録部12は、算出部11が入力文書データ300乃至304の少なくともいずれか、あるいは、辞書データ210乃至214の少なくともいずれかが更新されたことを検出して類似度管理情報110を生成するたびに、辞書データを登録する処理を行ってもよい。あるいは、登録部12は、定期的に、もしくは、システム管理者等からの指示を契機として、辞書データを登録する処理を行ってもよい。その際、登録部12は、算出部11が類似度管理情報110を生成するタイミングと同期して辞書データを登録する処理を行ってもよいし、非同期で係る処理を行ってもよい。
The
次に図2のフローチャートを参照して、本実施形態に係るユーザ辞書管理システム1の動作(処理)について詳細に説明する。 Next, the operation (process) of the user dictionary management system 1 according to the present embodiment will be described in detail with reference to the flowchart of FIG.
算出部11は、ユーザA乃至E入力文書データ300乃至304を基に、類似度管理情報110を生成する(ステップS101)。登録部12は、類似度管理情報110を基に、優先順位管理情報120を生成する(ステップS102)。
The
処理は、X(XはA乃至Eの何れかの英字)に関して、ステップS107までのループ処理に入る(ステップS103)。登録部12は、ユーザXの辞書データに登録されていない、変換対象ワードと変換候補ワードの組み合わせが、他のユーザ辞書データに存在するか否かを確認する(ステップS104)。
The process enters a loop process up to step S107 with respect to X (X is any letter of A to E) (step S103). The
当該組み合わせが、他のユーザ辞書データに存在しない場合(ステップS105でNo)、処理はステップS107へ進む。当該組み合わせが、他のユーザ辞書データに存在する場合(ステップS105でYes)、登録部12は、未登録である変換対象ワードと変換候補ワードの組み合わせを、優先順位管理情報120が示す情報に基づき、ユーザXの辞書データに登録する(ステップS106)。
If the combination does not exist in other user dictionary data (No in step S105), the process proceeds to step S107. When the combination exists in other user dictionary data (Yes in step S105), the
XがEでない場合は、登録部12は、次のXに関してステップS103からの処理を実行し、XがEである場合は、全体の処理は終了する(ステップS107)。
When X is not E, the
本実施形態に係るユーザ辞書管理システム1は、言語変換処理装置が使用するユーザ辞書に対する辞書情報の登録を、効率的かつ柔軟に行うことができる。その理由は、算出部11が、各ユーザ辞書データ間に関する類似度を算出し、登録部12が、特定のユーザ辞書データに未登録である辞書データを、他のユーザ辞書データから、係る類似度が示す値に基づいて、変換優先順位が示す値と関連付けて、係る特定のユーザ辞書データに登録するからである。
The user dictionary management system 1 according to the present embodiment can efficiently and flexibly register dictionary information for the user dictionary used by the language conversion processing device. The reason is that the
言語変換処理システムにおいて、特定のユーザが使用するユーザ辞書に未登録である辞書データを、別のユーザが使用するユーザ辞書から登録することにより、その特定のユーザが処理する言語変換処理の精度が向上する。そして、その際、登録先であるユーザ辞書に不必要な辞書データを登録することを回避するため、係る辞書データに関する登録先及び登録元であるユーザ辞書間の類似度が示す値が閾値以上である場合にのみ、登録を行うようにしたシステムがある。しかしながら、係るシステムでは、登録先であるユーザ辞書が使用する可能性がある辞書データの登録を排除する虞があり、辞書データの登録に関する柔軟性に欠けている。 In a language conversion processing system, by registering dictionary data that is not registered in a user dictionary used by a specific user from a user dictionary used by another user, the accuracy of the language conversion processing processed by the specific user is improved. improves. At that time, in order to avoid registering unnecessary dictionary data in the user dictionary that is the registration destination, the value indicated by the similarity between the registration destination and the user dictionary that is the registration source related to the dictionary data is greater than or equal to the threshold value. There are systems that only register in some cases. However, in such a system, there is a possibility that registration of dictionary data that may be used by a user dictionary that is a registration destination may be excluded, and flexibility regarding registration of dictionary data is lacking.
これに対して、本実施形態に係るユーザ辞書管理システム1では、係る類似度が示す値を、登録先のユーザ辞書に辞書データを登録するか否かの判断基準として使用するのではなく、係る辞書データに関する、登録先のユーザ辞書における変換優先順位を決定する際の判断基準として使用する。すなわち、本実施形態に係る登録部12は、係る類似度が示す値が高い登録元であるユーザ辞書からの辞書データを、登録先であるユーザ辞書においける変換優先順位が示す値が高くなるように登録する。そして、登録部12は、係る類似度が示す値が低い登録元であるユーザ辞書からの辞書データを排除するのではなく、登録先であるユーザ辞書における変換優先順位が示す値が低くなるように登録する。これにより、本実施形態に係るユーザ辞書管理システム1は、言語変換処理装置が使用するユーザ辞書に対する辞書データの登録を、効率的かつ柔軟に行うことができる。
On the other hand, in the user dictionary management system 1 according to the present embodiment, the value indicated by the similarity is not used as a criterion for determining whether or not to register dictionary data in the registration destination user dictionary. This is used as a criterion for determining the conversion priority in the user dictionary of the registration destination for dictionary data. That is, the
尚、本実施形態に係る算出部11は、入力文書データ300乃至304に関して、各入力文書データ間の類似度が示す値を算出しているが、ユ辞書データ210乃至214を基に、各ユーザの辞書データ間の類似度が示す値を算出するようにしてもよい。
Note that the
また、本実施形態に係るユーザ辞書管理システム1は、入力文書データ300乃至304の少なくともいずれか、あるいは、辞書データ210乃至214の少なくともいずれかが更新されるたびに、ユーザ辞書に辞書データを登録する、動的な登録処理を行うことができる。あるいは、本実施形態に係るユーザ辞書管理システム1は、定期的に、もしくは、システム管理者等からの指示を契機として、辞書データを登録する、静的な登録処理も行うことができる。ユーザ辞書管理システム1は、言語変換処理に関する精度を可能な限り向上させたい場合は、動的な登録処理を行えばよい。一方、ユーザ辞書管理システム1は、登録処理によって生じるシステム負荷を低減させたい場合は、静的な登録処理を行えばよい。すなわち、ユーザ辞書管理システム1は、システムに対する要求仕様に従い、ユーザ辞書への辞書データの登録処理に関して、柔軟な運用を行うことができる。
Further, the user dictionary management system 1 according to the present embodiment registers dictionary data in the user dictionary every time at least one of the
尚、本実施形態に係るユーザ辞書管理システム1は、図1に示す全ての構成要素がサーバ装置に包含される、クラウドサービス型のシステムとして構築されてもよい。あるいは、ユーザ辞書管理システム1は、ユーザ辞書データ、ユーザ入力文書データ、及び、ユーザ出力文書データが、各ユーザが使用するクライアント端末装置に包含されるようなシステムとして構築されてもよい。この場合、本実施形態に係るユーザ辞書管理システム1は、ユーザ入力文書データ間の類似度が示す値を、サーバ装置側で算出してもよいし、あるいは、クライアント端末装置間においてピアーツーピアー型の通信を行うことにより、クライアント端末装置側で算出してもよい。 Note that the user dictionary management system 1 according to the present embodiment may be constructed as a cloud service type system in which all the components shown in FIG. 1 are included in the server device. Alternatively, the user dictionary management system 1 may be constructed as a system in which user dictionary data, user input document data, and user output document data are included in a client terminal device used by each user. In this case, the user dictionary management system 1 according to the present embodiment may calculate the value indicated by the similarity between user input document data on the server device side, or a peer-to-peer type between client terminal devices The communication may be performed on the client terminal device side.
<第2の実施形態>
図7は第2の実施形態のユーザ辞書管理装置50の構成を概念的に示すブロック図である。
<Second Embodiment>
FIG. 7 is a block diagram conceptually showing the structure of the user
本実施形態のユーザ辞書管理装置50は、算出部51、及び、登録部52を備えている。
The user
算出部51は、複数のユーザ辞書情報の中の、第1のユーザ辞書情報600、及び、第2のユーザ辞書情報601に関する類似度が示す値を、所定の基準に基づき算出する。係る複数のユーザ辞書情報は、変換指示レコードを包含している。係る変換指示レコードは、言語変換処理装置60がユーザ文書情報を言語変換処理する際に参照するレコードである。そして、その変換指示レコードは、変換前のワードである変換対象ワードと、変換後のワードである1以上の変換候補ワードと、その変換候補ワードに関する変換優先順位が示す値とを関連付けて記憶している。
The
登録部52は、第1のユーザ辞書情報600が包含する変換指示レコードが示す情報を、係る類似度が示す値に基づいて、係る変換優先順位が示す値と関連付けて、第2のユーザ辞書情報602に登録する。
The
本実施形態に係るユーザ辞書管理装置50は、言語変換処理装置が使用するユーザ辞書に対する辞書情報の登録を、効率的かつ柔軟に行うことができる。その理由は、算出部51が、各ユーザ辞書情報間に関する類似度を算出し、登録部52が、特定のユーザ辞書情報に未登録である辞書情報を、他のユーザ辞書情報から、係る類似度が示す値に基づいて、変換優先順位が示す値と関連付けて、係る特定のユーザ辞書情報に登録するからである。
The user
<ハードウェア構成例>
上述した各実施形態において図1、及び、図7に示した各部は、専用のHW(HawdWare)(電子回路)によって実現することができる。また、少なくとも、算出部11及び51、及び、登録部12及び52は、ソフトウェアプログラムの機能(処理)単位(ソフトウェアモジュール)と捉えることができる。但し、これらの図面に示した各部の区分けは、説明の便宜上の構成であり、実装に際しては、様々な構成が想定され得る。この場合のハードウェア環境の一例を、図8を参照して説明する。
<Hardware configuration example>
In each embodiment described above, each unit illustrated in FIG. 1 and FIG. 7 can be realized by a dedicated HW (Holdware) (electronic circuit). Further, at least the
図8は、本発明の模範的な実施形態に係るユーザ辞書管理装置を実行可能な情報処理装置900(コンピュータ)の構成を例示的に説明する図である。即ち、図8は、図1、及び、図7に示したユーザ辞書管理装置を実現可能なコンピュータ(情報処理装置)の構成であって、上述した実施形態における各機能を実現可能なハードウェア環境を表す。 FIG. 8 is a diagram illustrating an exemplary configuration of an information processing apparatus 900 (computer) that can execute the user dictionary management apparatus according to the exemplary embodiment of the present invention. That is, FIG. 8 shows a configuration of a computer (information processing apparatus) that can realize the user dictionary management apparatus shown in FIGS. 1 and 7, and a hardware environment that can realize each function in the above-described embodiment. Represents.
図8に示した情報処理装置900は、CPU901、ROM(Read_Only_Memory)902、RAM(Random_Access_Memory)903、ハードディスク904(記憶装置)、外部装置との通信インタフェース905(Interface:以降、「I/F」と称する)、CD−ROM(Compact_Disc_Read_Only_Memory)等の記憶媒体907に格納されたデータを読み書き可能なリーダライタ908、及び、入出力インタフェース909を備え、これらの構成がバス906(通信線)を介して接続された一般的なコンピュータである。
The
そして、上述した実施形態を例に説明した本発明は、図8に示した情報処理装置900に対して、その実施形態の説明において参照したブロック構成図(図1、及び、図7)における、算出部11及び51、及び、登録部12及び52、或いはフローチャート(図2)の機能を実現可能なコンピュータプログラムを供給した後、そのコンピュータプログラムを、当該ハードウェアのCPU901に読み出して解釈し実行することによって達成される。また、当該装置内に供給されたコンピュータプログラムは、読み書き可能な揮発性の記憶メモリ(RAM903)またはハードディスク904等の不揮発性の記憶デバイスに格納すれば良い。
The present invention described using the above-described embodiment as an example is the block configuration diagram (FIG. 1 and FIG. 7) referenced in the description of the embodiment for the
また、前記の場合において、当該ハードウェア内へのコンピュータプログラムの供給方法は、CD−ROM等の各種記憶媒体907を介して当該装置内にインストールする方法や、インターネット等の通信回線を介して外部よりダウンロードする方法等のように、現在では一般的な手順を採用することができる。そして、このような場合において、本発明は、係るコンピュータプログラムを構成するコード或いは、そのコードが格納された記憶媒体907によって構成されると捉えることができる。
In the above-described case, the computer program can be supplied to the hardware by a method of installing in the apparatus via
以上、上述した実施形態を模範的な例として本発明を説明した。しかしながら、本発明は、上述した実施形態には限定されない。即ち、本発明は、本発明のスコープ内において、当業者が理解し得る様々な態様を適用することができる。 The present invention has been described above using the above-described embodiment as an exemplary example. However, the present invention is not limited to the above-described embodiment. That is, the present invention can apply various modes that can be understood by those skilled in the art within the scope of the present invention.
1 ユーザ辞書管理システム
10 ユーザ辞書管理装置
11 算出部
110 類似度管理情報
12 登録部
120 優先順位管理情報
20 言語変換処理装置
21 ユーザ辞書データ格納部
210乃至214 辞書データ
30 ユーザ入力文書データ格納部
300乃至304 入力文書データ
40 ユーザ出力文書データ格納部
400乃至404 出力文書データ
50 ユーザ辞書管理装置
51 算出部
52 登録部
60 言語変換処理装置
600 第1のユーザ辞書情報
601 第2のユーザ辞書情報
900 情報処理装置
901 CPU
902 ROM
903 RAM
904 ハードディスク
905 通信インタフェース
906 バス
907 記憶媒体
908 リーダライタ
909 入出力インタフェース
DESCRIPTION OF SYMBOLS 1 User
902 ROM
903 RAM
904
Claims (7)
特定の前記変換対象ワードに関して、複数の前記第一のユーザ辞書情報に、それぞれ異なる値が登録されている前記変換候補ワードを、前記第二のユーザ辞書情報に登録する場合に、前記第一のユーザ辞書情報に関する前記類似度が大きいことを表す順番に、前記変換優先順位が示す値が高くなるように、それぞれの前記変換候補ワードを登録する登録手段と、
を備える、ユーザ辞書管理装置。 The language conversion processing device refers to the user document information when performing language conversion processing. The conversion target word that is the word before conversion, one or more conversion candidate words that are the converted word, and the conversion priority for the conversion candidate word Based on a predetermined criterion, a value indicated by the similarity regarding the first and second user dictionary information among a plurality of user dictionary information including a conversion instruction record that stores the value indicated by the rank in association with each other is calculated. A calculation means;
When the conversion candidate word in which different values are registered in the plurality of first user dictionary information with respect to the specific conversion target word is registered in the second user dictionary information, Registration means for registering each of the conversion candidate words so that the value indicated by the conversion priority is higher in the order indicating the degree of similarity of the user dictionary information is greater ;
A user dictionary management device comprising:
前記登録手段は、前記算出手段が前記第一のユーザ辞書情報が更新されたことを検知するたびに、前記第二のユーザ辞書情報を更新する、
請求項1に記載のユーザ辞書管理装置。 The calculation means detects that the first user dictionary information has been updated, calculates a value indicated by the similarity,
The registration unit updates the second user dictionary information each time the calculation unit detects that the first user dictionary information is updated.
The user dictionary management apparatus according to claim 1 .
前記登録手段は、第二の所定の時間に、前記第二のユーザ辞書情報を更新する、
請求項1または2に記載のユーザ辞書管理装置。 The calculation means calculates a value indicated by the similarity at a first predetermined time,
The registration means updates the second user dictionary information at a second predetermined time.
The user dictionary management apparatus according to claim 1 or 2 .
請求項1乃至3のいずれかに記載のユーザ辞書管理装置。 Said calculating means includes a first said user document information converted using the first user dictionary information, and the second of the user document information is converted using said second user dictionary information To calculate a value indicated by the similarity,
The user dictionary management apparatus according to any one of claims 1 to 3 .
請求項4に記載のユーザ辞書管理装置。 The calculation means calculates the similarity based on a ratio of the conversion target word that the first and second user document information includes in common to the first and second user document information. Calculate the value shown,
The user dictionary management apparatus according to claim 4 .
言語変換処理装置がユーザ文書情報を言語変換処理する際に参照し、変換前のワードである変換対象ワードと、変換後のワードである1以上の変換候補ワードと、前記変換候補ワードに関する変換優先順位が示す値とを関連付けて記憶する変換指示レコード、を包含する複数のユーザ辞書情報の中の、第一及び第二のユーザ辞書情報に関する類似度が示す値を、所定の基準に基づき算出し、
特定の前記変換対象ワードに関して、複数の前記第一のユーザ辞書情報に、それぞれ異なる値が登録されている前記変換候補ワードを、前記第二のユーザ辞書情報に登録する場合に、前記第一のユーザ辞書情報に関する前記類似度が大きいことを表す順番に、前記変換優先順位が示す値が高くなるように、それぞれの前記変換候補ワードを登録する、
ユーザ辞書管理方法。 Depending on the information processing device,
The language conversion processing device refers to the user document information when performing language conversion processing. The conversion target word that is the word before conversion, one or more conversion candidate words that are the converted word, and the conversion priority for the conversion candidate word Based on a predetermined criterion, a value indicated by the similarity with respect to the first and second user dictionary information among a plurality of user dictionary information including a conversion instruction record that is stored in association with the value indicated by the rank is calculated. ,
When the conversion candidate word in which different values are registered in the plurality of first user dictionary information with respect to the specific conversion target word is registered in the second user dictionary information, Register each of the conversion candidate words so that the value indicated by the conversion priority is higher in the order indicating that the similarity with respect to the user dictionary information is greater ;
User dictionary management method.
特定の前記変換対象ワードに関して、複数の前記第一のユーザ辞書情報に、それぞれ異なる値が登録されている前記変換候補ワードを、前記第二のユーザ辞書情報に登録する場合に、前記第一のユーザ辞書情報に関する前記類似度が大きいことを表す順番に、前記変換優先順位が示す値が高くなるように、それぞれの前記変換候補ワードを登録する登録処理と、
をコンピュータに実行させる、ユーザ辞書管理プログラム。 The language conversion processing device refers to the user document information when performing language conversion processing. The conversion target word that is the word before conversion, one or more conversion candidate words that are the converted word, and the conversion priority for the conversion candidate word Based on a predetermined criterion, a value indicated by the similarity regarding the first and second user dictionary information among a plurality of user dictionary information including a conversion instruction record that stores the value indicated by the rank in association with each other is calculated. Calculation process,
When the conversion candidate word in which different values are registered in the plurality of first user dictionary information with respect to the specific conversion target word is registered in the second user dictionary information, A registration process for registering each of the conversion candidate words such that the value indicated by the conversion priority is higher in an order indicating that the similarity with respect to the user dictionary information is greater ;
User dictionary management program that causes a computer to execute.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014048331A JP6311367B2 (en) | 2014-03-12 | 2014-03-12 | User dictionary management device, user dictionary management method, and user dictionary management program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014048331A JP6311367B2 (en) | 2014-03-12 | 2014-03-12 | User dictionary management device, user dictionary management method, and user dictionary management program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015172854A JP2015172854A (en) | 2015-10-01 |
JP6311367B2 true JP6311367B2 (en) | 2018-04-18 |
Family
ID=54260140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014048331A Active JP6311367B2 (en) | 2014-03-12 | 2014-03-12 | User dictionary management device, user dictionary management method, and user dictionary management program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6311367B2 (en) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05143577A (en) * | 1991-11-20 | 1993-06-11 | Sanyo Electric Co Ltd | Japanese syllabary/chinese character converter |
JP4792885B2 (en) * | 2005-09-15 | 2011-10-12 | 日本電気株式会社 | Natural language processing system, natural language processing method, natural language processing program |
US20100076749A1 (en) * | 2007-03-01 | 2010-03-25 | Nec Corporation | Language processing system, language processing method, language processing program, and recording medium |
JP2009169710A (en) * | 2008-01-17 | 2009-07-30 | Ricoh Co Ltd | Data processor |
-
2014
- 2014-03-12 JP JP2014048331A patent/JP6311367B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015172854A (en) | 2015-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10558646B2 (en) | Cognitive deduplication-aware data placement in large scale storage systems | |
US10423902B2 (en) | Parallel processing apparatus and method of estimating power consumption of jobs | |
CN108108342B (en) | Structured text generation method, search method and device | |
CN111090628A (en) | Data processing method and device, storage medium and electronic equipment | |
CN108431831B (en) | Cyclic code processor optimization | |
EP3885963A1 (en) | Method and apparatus for determining causality, electronic device and storage medium | |
CN109871311B (en) | Method and device for recommending test cases | |
JP2020074193A (en) | Search method, device, facility, and non-volatile computer memory | |
CN110750615B (en) | Text repeatability judgment method and device, electronic equipment and storage medium | |
US20180330279A1 (en) | Computer-readable recording medium, learning method, and learning apparatus | |
Heo et al. | BLESS 2: accurate, memory-efficient and fast error correction method | |
JP7052145B2 (en) | Token matching in a large document corpus | |
CN116702723A (en) | Training method, device and equipment for contract paragraph annotation model | |
CN110008807B (en) | Training method, device and equipment for contract content recognition model | |
US20200142904A1 (en) | Methods, electronic devices and computer program product for replicating metadata | |
CN110888972A (en) | Sensitive content identification method and device based on Spark Streaming | |
US9002772B2 (en) | Scalable rule-based processing system with trigger rules and rule evaluator | |
US9684668B1 (en) | Systems and methods for performing lookups on distributed deduplicated data systems | |
US10496930B2 (en) | Apparatus and method to determine a distribution destination of a message based on a probability of co-occurrence of words included in distributed messages | |
US20140310248A1 (en) | Verification support program, verification support apparatus, and verification support method | |
JP2006331135A (en) | Performance prediction device, performance prediction method and performance prediction program for cluster system | |
JP6311367B2 (en) | User dictionary management device, user dictionary management method, and user dictionary management program | |
JP6189266B2 (en) | Data processing apparatus, data processing method, and data processing program | |
CN107368281B (en) | Data processing method and device | |
KR101559651B1 (en) | Method and apparatus of dynamic analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170215 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171208 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171219 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180205 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180220 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180305 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6311367 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |