JP2007323250A - System, processing method and program for registering in dictionary for kana-kanji conversion - Google Patents
System, processing method and program for registering in dictionary for kana-kanji conversion Download PDFInfo
- Publication number
- JP2007323250A JP2007323250A JP2006151170A JP2006151170A JP2007323250A JP 2007323250 A JP2007323250 A JP 2007323250A JP 2006151170 A JP2006151170 A JP 2006151170A JP 2006151170 A JP2006151170 A JP 2006151170A JP 2007323250 A JP2007323250 A JP 2007323250A
- Authority
- JP
- Japan
- Prior art keywords
- technical term
- document
- kana
- character string
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、用語を電子文書の作成において用いられる仮名漢字変換用辞書に登録する仮名漢字変換用辞書登録システム、当該仮名漢字変換用辞書登録システムにおける処理方法、及び、当該仮名漢字変換用辞書登録システムにおいて実行されるプログラムに関する。 The present invention relates to a kana-kanji conversion dictionary registration system for registering a term in a kana-kanji conversion dictionary used in creation of an electronic document, a processing method in the kana-kanji conversion dictionary registration system, and the kana-kanji conversion dictionary registration The present invention relates to a program executed in the system.
医療分野で作成される電子カルテのように専門性の高い内容の日本語の電子文書が作成される場合、仮名漢字変換用辞書には専門用語が登録されていないことが多く、仮名漢字変換に要する時間コストが大きくなるという問題がある。この問題を解決するためには、ユーザ、すなわち、文書の書き手が、予め、専門用語を仮名漢字変換用辞書に登録する必要がある。必要十分な量の専門用語(とその読み)が仮名漢字変換用辞書に登録されていれば、例えば、読みの先頭3文字を入力するだけで対応する変換候補を表示させることができる等、文書作成の効率化が可能となる。しかしながら、特に医療分野のように専門用語が膨大に存在する場合には、人手によって、仮名漢字変換用辞書への専門用語の登録を網羅的に行うことは困難である。 When an electronic document with a high level of expertise is created, such as an electronic medical record created in the medical field, technical terms are often not registered in the dictionary for kana-kanji conversion. There is a problem that the time cost required increases. In order to solve this problem, it is necessary for a user, that is, a document writer, to register technical terms in the kana-kanji conversion dictionary in advance. If a necessary and sufficient amount of technical terms (and their readings) are registered in the Kana-Kanji conversion dictionary, for example, the corresponding conversion candidates can be displayed simply by entering the first three characters of the reading. Creation efficiency can be improved. However, especially when there are a large number of technical terms, such as in the medical field, it is difficult to comprehensively register technical terms in the kana-kanji conversion dictionary manually.
仮名漢字変換用辞書への用語の登録に関しては、特許文献1に記載された技術では、複数のユーザが共通の仮名漢字変換用辞書を共有することにより、各ユーザの登録の負担を軽減するシステムが提案されている。また、特許文献2に記載された技術では、ユーザが実行した仮名漢字変換の事例を自動的に仮名漢字変換用辞書に登録することにより、ユーザによる登録作業の軽減を図るシステムが提案されている。
しかしながら、特許文献1におけるシステムを採用しても、依然として専門用語の網羅的な登録が可能になるとは言い難く、更には、複数のユーザが同一分野の文書を共同で作成している状況にない場合には効果を得ることができない。また、特許文献2に記載されたシステムでは、本来登録が必要でない用語までもが仮名漢字変換用辞書に登録されてしまう場合があり、その結果、不必要な変換候補が多数表示され、かえって文書作成の効率が低下してしまうという問題が生じる。 However, even if the system in Patent Document 1 is adopted, it is still difficult to say that comprehensive registration of technical terms is possible, and furthermore, there is no situation in which a plurality of users jointly create documents in the same field. In some cases, the effect cannot be obtained. Further, in the system described in Patent Document 2, even terms that do not necessarily need to be registered may be registered in the kana-kanji conversion dictionary. As a result, a large number of unnecessary conversion candidates are displayed, and instead the document There arises a problem that the production efficiency is lowered.
本発明の目的は、上述した問題を解決するものであり、専門用語の仮名漢字変換用辞書への登録を適切に行うことが可能な仮名漢字変換用辞書登録システム、仮名漢字変換用辞書登録処理方法及び仮名漢字変換用辞書登録プログラムを提供するものである。 SUMMARY OF THE INVENTION An object of the present invention is to solve the above-mentioned problems, and a kana-kanji conversion dictionary registration system and a kana-kanji conversion dictionary registration process capable of appropriately registering technical terms in a kana-kanji conversion dictionary. A method and a dictionary registration program for kana-kanji conversion are provided.
本発明に係る、用語を仮名漢字変換用辞書に登録する仮名漢字変換用辞書登録システムは、専門用語の仮名漢字変換用辞書を記憶する記憶手段と、前記専門用語の特徴を表す第1の素性を生成する第1の生成手段と、前記専門用語の第1の文書内での出現の態様の特徴を表す第2の素性を生成する第2の生成手段と、前記第1及び第2の素性に基づいて、前記第1の文書及び前記第1の文書とは異なる入力された第2の文書のうちのいずれかの文字列が専門用語であるか否かを判定する判定手段と、前記専門用語であると判定された文字列を前記仮名漢字変換用辞書に登録する登録手段とを有することを特徴とする。 A kana-kanji conversion dictionary registration system for registering a term in a dictionary for kana-kanji conversion according to the present invention includes a storage means for storing a dictionary for kana-kanji conversion of technical terms, and a first feature representing characteristics of the technical terms First generation means for generating a second feature for generating a second feature representing a feature of an appearance of the technical term in the first document, and the first and second features And determining means for determining whether a character string of any one of the first document and the input second document different from the first document is a technical term, Registration means for registering a character string determined to be a term in the dictionary for kana-kanji conversion.
この構成によれば、専門用語の特徴と、当該専門用語の第1の文書内での出現の態様の特徴とを解析し、これらに基づいて対象の文字列が専門用語であるか否かを判定し、専門用語であると判定された場合には仮名漢字変換用辞書に登録するようにすることで、過去に作成された文書に基づいて、専門用語であるか否かを高い精度で判定することが可能となり、専門用語の仮名漢字変換用辞書への登録を適切に行うことが可能となる。 According to this configuration, the feature of the technical term and the feature of the appearance of the technical term in the first document are analyzed, and based on these, whether the target character string is the technical term or not is determined. If it is determined that it is a technical term, it is registered in the dictionary for kana-kanji conversion so that it can be determined with high accuracy whether it is a technical term based on a previously created document. Thus, it becomes possible to appropriately register the technical terms in the kana-kanji conversion dictionary.
また、本発明の仮名漢字変換用辞書登録システムは、前記判定手段が、前記第1の文書内の前記専門用語以外の文字列のうち、専門用語の候補を特定し、前記第2の文書内の文字列が前記専門用語の候補と一致する場合に、該文字列が専門用語であると判定するようにしてもよい。 In the dictionary registration system for kana-kanji conversion according to the present invention, the determination unit specifies a candidate for a technical term out of character strings other than the technical term in the first document, and stores the candidate in the second document. If the character string matches the candidate for the technical term, it may be determined that the character string is a technical term.
この構成によれば、専門用語の候補と一致する文字列を専門用語として仮名漢字変換用辞書に登録することで、より適切に対象の文字列を仮名漢字変換用辞書に登録することが可能となる。 According to this configuration, it is possible to register the target character string in the kana-kanji conversion dictionary more appropriately by registering the character string that matches the candidate technical term as the technical term in the kana-kanji conversion dictionary. Become.
また、本発明の仮名漢字変換用辞書登録システムは、前記第1の素性が、前記専門用語を形態素解析して得られる品詞列、前記専門用語の文字数、前記専門用語のカタカナの含有率を表し、前記第2の素性が、前記専門用語が前記第1の文書内で出現する頻度、前記専門用語が所定の格によって動詞を修飾している頻度、前記専門用語を含む文に含まれる他の専門用語の数の平均値を表すようにしてもよい。 In the kana-kanji conversion dictionary registration system of the present invention, the first feature represents a part-of-speech sequence obtained by morphological analysis of the technical term, the number of characters of the technical term, and the content of katakana of the technical term. , The second feature is the frequency at which the terminology appears in the first document, the frequency at which the terminology modifies the verb by a predetermined case, and other sentences included in the sentence containing the terminology. You may make it represent the average value of the number of technical terms.
また、本発明の仮名漢字変換用辞書登録システムは、前記第1の文書内の前記専門用語以外の文字列の特徴を表す第3の素性を生成する第3の生成手段と、前記第1の文書内の前記専門用語以外の文字列の前記第1の文書内での出現の態様の特徴を表す第4の素性を生成する第4の生成手段とを有し、前記判定手段が、前記第3及び第4の素性に基づいて、前記第2の文書内の文字列が専門用語であるか否かを判定するようにしてもよい。 In addition, the kana-kanji conversion dictionary registration system of the present invention includes a third generation unit that generates a third feature representing a character string characteristic other than the technical term in the first document, and the first generation unit. And a fourth generation unit that generates a fourth feature representing a feature of appearance of the character string other than the technical term in the document in the first document, and the determination unit includes the first feature Based on the third and fourth features, it may be determined whether the character string in the second document is a technical term.
この構成によれば、専門用語の正例の特徴のみならず、負例の特徴に基づいて、より適切に対象の文字列が専門用語であるか否かを判定することができる。 According to this configuration, it is possible to more appropriately determine whether the target character string is a technical term based on not only the positive example feature of the technical term but also the negative example feature.
また、本発明の仮名漢字変換用辞書登録システムは、前記第3の素性が、前記専門用語以外の文字列を形態素解析して得られる品詞列、前記専門用語以外の文字列の文字数、前記専門用語以外の文字列のカタカナの含有率を表し、前記第4の素性が、前記専門用語以外の文字列が前記第1の文書内で出現する頻度、前記専門用語以外の文字列が所定の格によって動詞を修飾している頻度、前記専門用語以外の文字列を含む文に含まれる他の専門用語以外の文字列の数の平均値を表すようにしてもよい。 In the kana-kanji conversion dictionary registration system according to the present invention, the third feature is a part-of-speech sequence obtained by morphological analysis of a character string other than the technical term, the number of characters in the character string other than the technical term, It represents the content of katakana in a character string other than the term, the fourth feature is the frequency at which the character string other than the technical term appears in the first document, and the character string other than the technical term is a predetermined case. The frequency of modifying the verb may be represented by an average value of the number of character strings other than the technical terms included in the sentence including the character strings other than the technical terms.
また、本発明の仮名漢字変換用辞書登録システムは、前記登録手段が、前記専門用語であると判定された文字列のうち、所定の操作指示によって選択された文字列を前記仮名漢字変換用辞書に登録するようにしてもよい。 In the kana-kanji conversion dictionary registration system of the present invention, the kana-kanji conversion dictionary includes a character string selected by a predetermined operation instruction among the character strings determined by the registration means as the technical term. You may make it register to.
この構成によれば、ユーザが対象の文字列を仮名漢字変換用辞書に登録すべきが否かについての最終的な判断を行うようにすることで、より適切に対象の文字列を仮名漢字変換用辞書に登録することが可能となる。 According to this configuration, by making a final determination as to whether or not the user should register the target character string in the kana-kanji conversion dictionary, the target character string is more appropriately converted to kana-kanji conversion. It becomes possible to register in the dictionary for use.
また、本発明の仮名漢字変換用辞書登録システムは、前記第3の素性生成手段が、前記専門用語であると判定された文字列のうち、前記仮名漢字変換用辞書に登録されなかった文字列について、前記第3の素性を生成し、前記第4の素性生成手段が、前記専門用語であると判定された文字列のうち、前記仮名漢字変換用辞書に登録されなかった文字列について、前記第4の素性を生成するようにしてもよい。 In the kana-kanji conversion dictionary registration system according to the present invention, a character string that is not registered in the kana-kanji conversion dictionary among the character strings determined by the third feature generation means as the technical term. For the character string that is not registered in the dictionary for kana-kanji conversion among the character strings that are determined to be the technical term, the fourth feature generation means generates the third feature, A fourth feature may be generated.
この構成によれば、専門用語であると判定されたものの、例えば、ユーザによって仮名漢字変換辞書への登録が指示されなかった文字列については、専門用語ではないもの、すなわち、負例として扱い、第3及び第4の素性が生成されるようにすることで、その後の専門用語の判定において、専門用語の正例及び負例の特徴に基づいて、より適切に対象の文字列が専門用語であるか否かを判定することができる。 According to this configuration, although it is determined to be a technical term, for example, a character string that is not instructed to be registered in the kana-kanji conversion dictionary by the user is treated as a negative term, that is, as a negative example, By causing the third and fourth features to be generated, in the subsequent determination of the technical term, the target character string is more appropriately converted into the technical term based on the characteristics of the positive and negative examples of the technical term. It can be determined whether or not there is.
本発明に係る、用語を仮名漢字変換用辞書に登録する仮名漢字変換用辞書登録システムにおける処理方法は、仮名漢字変換用辞書に含まれる専門用語の特徴を表す第1の素性を生成する第1の生成ステップと、前記専門用語の第1の文書内での出現の態様の特徴を表す第2の素性を生成する第2の生成ステップと、前記第1及び第2の素性に基づいて、前記第1の文書内及び第2の文書内のいずれかの文字列が専門用語であるか否かを判定する判定ステップと、前記専門用語であると判定された文字列を前記仮名漢字変換用辞書に登録する登録ステップとを有することを特徴とする。 According to the present invention, a processing method in a kana-kanji conversion dictionary registration system for registering a term in a kana-kanji conversion dictionary generates a first feature representing a feature of a technical term included in the kana-kanji conversion dictionary. Based on the first and second features, a second generating step for generating a second feature that represents a feature of the appearance of the terminology in the first document, and A determination step of determining whether any one of the character strings in the first document and the second document is a technical term, and the character string determined to be the technical term as the dictionary for kana-kanji conversion And a registration step of registering to the system.
また、本発明の処理方法は、前記判定ステップが、前記第1の文書内の前記専門用語以外の文字列のうち、専門用語の候補を特定し、前記第2の文書内の文字列が前記専門用語の候補と一致する場合に、該文字列が専門用語であると判定するようにしてもよい。 Further, in the processing method of the present invention, the determination step specifies technical term candidates among character strings other than the technical terms in the first document, and the character strings in the second document are When matching with a candidate for a technical term, it may be determined that the character string is a technical term.
また、本発明の処理方法は、前記第1の文書内の前記専門用語以外の文字列の特徴を表す第3の素性を生成する第3の生成ステップと、前記第1の文書内の前記専門用語以外の文字列の前記第1の文書内での出現の態様の特徴を表す第4の素性を生成する第4の生成ステップとを有し、前記判定ステップが、前記第3及び第4の素性に基づいて、前記第2の文書内の文字列が専門用語であるか否かを判定するようにしてもよい。 The processing method of the present invention includes a third generation step of generating a third feature representing a character string characteristic other than the technical terms in the first document, and the special processing in the first document. A fourth generation step of generating a fourth feature representing a feature of the appearance of the character string other than the term in the first document, and the determination step includes the third and fourth steps. Based on the feature, it may be determined whether the character string in the second document is a technical term.
本発明に係る、用語を仮名漢字変換用辞書に登録する仮名漢字変換用辞書登録システムにおいて実行されるプログラムは、仮名漢字変換用辞書に含まれる専門用語の特徴を表す第1の素性を生成する第1の生成ステップと、前記専門用語の第1の文書内での出現の態様の特徴を表す第2の素性を生成する第2の生成ステップと、前記第1及び第2の素性に基づいて、前記第1の文書内及び第2の文書内のいずれかの文字列が専門用語であるか否かを判定する判定ステップと、前記専門用語であると判定された文字列を前記仮名漢字変換用辞書に登録する登録ステップとを有することを特徴とする。 The program executed in the kana-kanji conversion dictionary registration system for registering a term in the kana-kanji conversion dictionary according to the present invention generates a first feature representing the characteristics of the technical terms included in the kana-kanji conversion dictionary. A first generation step, a second generation step for generating a second feature representing a feature of the appearance of the technical term in the first document, and the first and second features. A determination step of determining whether any one of the character strings in the first document and the second document is a technical term, and converting the character string determined to be the technical term into the kana-kanji conversion And a registration step of registering in the dictionary for use.
また、本発明のプログラムは、前記判定ステップが、前記第1の文書内の前記専門用語以外の文字列のうち、専門用語の候補を特定し、前記第2の文書内の文字列が前記専門用語の候補と一致する場合に、該文字列が専門用語であると判定するようにしてもよい。 Further, in the program according to the present invention, the determining step specifies a candidate for a technical term among character strings other than the technical term in the first document, and the character string in the second document is the specialized text. When matching with a term candidate, the character string may be determined to be a technical term.
また、本発明のプログラムは、前記第1の文書内の前記専門用語以外の文字列の特徴を表す第3の素性を生成する第3の生成ステップと、前記第1の文書内の前記専門用語以外の文字列の前記第1の文書内での出現の態様の特徴を表す第4の素性を生成する第4の生成ステップとを有し、前記判定ステップが、前記第3及び第4の素性に基づいて、前記第2の文書内の文字列が専門用語であるか否かを判定するようにしてもよい。 The program of the present invention includes a third generation step of generating a third feature representing a character string characteristic other than the technical term in the first document, and the technical term in the first document. And a fourth generation step for generating a fourth feature representing the feature of the appearance mode of the character string other than the first character in the first document, and the determination step includes the third and fourth features. Based on the above, it may be determined whether the character string in the second document is a technical term.
本発明によれば、専門用語の特徴と、当該専門用語の文書内での出現の態様の特徴とに基づいて対象の文字列が専門用語であるか否かを判定することによって、専門用語の仮名漢字変換用辞書への登録を適切に行うことが可能となる。 According to the present invention, by determining whether a target character string is a technical term based on characteristics of the technical term and characteristics of an appearance mode of the technical term in the document, It becomes possible to appropriately register in the kana-kanji conversion dictionary.
本発明の実施の形態について、図面を参照して具体的に説明する。図1は、仮名漢字変換用辞書登録システムの構成例を示す図である。同図に示す仮名漢字変換用辞書登録システム100は、パーソナルコンピュータ等の単体の情報処理装置によって構成されるものであり、電子文書に含まれる用語のうち、専門用語を特定し、仮名漢字変換用辞書に登録する。 Embodiments of the present invention will be specifically described with reference to the drawings. FIG. 1 is a diagram showing a configuration example of a dictionary registration system for kana-kanji conversion. The kana-kanji conversion dictionary registration system 100 shown in the figure is configured by a single information processing apparatus such as a personal computer, and identifies technical terms among terms included in an electronic document, for kana-kanji conversion. Register in the dictionary.
この仮名漢字変換用辞書登録システム100は、記憶手段に対応する専門用語辞書記憶部10と、文書記憶部20と、第1乃至第4の生成手段に対応する用語素性生成部30と、判定手段に対応する専門用語判定部40と、専門用語候補記憶部50と、判定手段及び登録手段に対応する専門用語登録部60と、入力部70と、モニタ80とにより構成される。これらのうち、専門用語辞書記憶部10、文書記憶部20、用語素性生成部30、専門用語判定部40、専門用語候補記憶部50及び専門用語登録部60は、CPUとメモリによって構成され、CPUが所定のプログラムを実行することによって実現される。
This kana-kanji conversion dictionary registration system 100 includes a technical term
専門用語辞書記憶部10は、医療分野の専門用語が登録されている仮名漢字変換辞書(専門用語辞書)を記憶している。専門用語辞書には、専門用語の文字列と当該専門用語の読みとが対応付けて登録されている。文書記憶部20は、専門用語辞書を利用して作成され、当該専門用語を含んだ電子文書の集合を記憶している。
The technical term
用語素性生成部30は、専門用語辞書登録部10に記憶された専門用語辞書に登録されている専門用語について、当該専門用語の特徴を表す第1の素性、及び、当該専門用語が文書記憶部20に記憶されている第1の文書の集合である文書集合内でどのような態様で出現しているのかを表す第2の素性を生成する。
The term
専門用語判定部40は、用語素性生成部30によって生成された第1及び第2の素性に基づいて、文書記憶部20に記憶されている文書集合における、専門用語辞書に登録されている専門用語以外の任意の文字列について、専門用語の可能性があるか否かを判定する。専門用語候補記憶部50は、専門用語の可能性があると判定された文字列を専門用語候補として記憶する。
The technical
専門用語登録部60は、専門用語候補記憶部50に記憶された専門用語候補に基づいて、入力部70が受け付けたユーザによって作成された文書内の任意の文字列が専門用語であるか否かを判定する。文字列が専門用語である場合、専門用語登録部60は、その専門用語と、当該専門用語の読みとを対応付けて専門用語辞書記憶部10に記憶された専門用語辞書に追加する。
The technical
以下、フローチャートを参照しつつ、仮名漢字変換用辞書登録システム100の詳細な動作を説明する。図2は、仮名漢字変換用辞書登録システム100の専門用語候補の抽出動作を示すフローチャートである。 The detailed operation of the kana-kanji conversion dictionary registration system 100 will be described below with reference to the flowchart. FIG. 2 is a flowchart showing the extraction operation of technical term candidates of the dictionary registration system 100 for kana-kanji conversion.
用語素性生成部30は、専門用語辞書登録部10に記憶された専門用語辞書に登録されている専門用語について、専門用語を形態素解析して得られる品詞列、専門用語の文字数、専門用語のカタカナの含有率からなる第1の素性と、専門用語が文書集合内で出現する頻度、専門用語が文書集合内で特定の動詞をヲ格、二格、デ格、ガ格等で修飾している頻度、文書集合内での専門用語を含む文に存在する他の専門用語の数の平均値からなる第2の素性を生成する(S101)。
The term
例えば、専門用語が「αリポ酸」の場合、第1の素性における、専門用語を形態素解析して得られる品詞列は「ギリシア文字−カタカナ−接尾辞」となり、専門用語の文字数は4文字であり、専門用語のカタカナ含有率は2/4=50%である。また、専門用語が「αリポ酸」であり、文書集合内に「αリポ酸を処方する」という表現が47箇所存在する場合には、第2の素性における、専門用語が文書集合内で動詞「処方する」をヲ格で修飾している頻度は47となる。これら第1及び第2の素性は、後述する専門用語判定部40における専門用語候補の特定において正例として利用されるものである。
For example, when the technical term is “α lipoic acid”, the part-of-speech sequence obtained by morphological analysis of the technical term in the first feature is “Greek letter-Katakana-suffix”, and the technical term has 4 characters. Yes, the katakana content of the technical term is 2/4 = 50%. If the technical term is “α lipoic acid” and there are 47 expressions “prescribe α lipoic acid” in the document set, the technical term in the second feature is a verb in the document set. The frequency of modifying “Prescribe” with wo is 47. These first and second features are used as positive examples in specifying technical term candidates in the technical
次に、用語素性生成部30は、第1及び第2の素性に基づいて、文書記憶部20に記憶されている文書集合のうち、専門用語辞書に登録されていない文字列を特定し、更に、当該文字列のうち、複合名詞Aを抽出する(S102)。更に、用語素性生成部30は、抽出した複合名詞Aを、文書記憶部20に記憶されている文書集合における出現頻度の少ない順に並べ替えを行い、当該頻度の少ない上位N個を抽出する(S103)。
Next, the term
次に、用語素性生成部30は、抽出したN個の複合名詞Aについて、当該複合名詞Aの特徴を表す第3の素性、及び、当該複合名詞Aが文書記憶部20に記憶されている文書集合内でどのような態様で出現しているのかを表す第4の素性を生成する(S104)。具体的には、第3の素性は、第1の素性と同様、複合名詞Aを形態素解析して得られる品詞列、複合名詞Aの文字数、複合名詞Aのカタカナの含有率からなり、第4の素性は、第2の素性と同様、複合名詞Aが文書集合内で出現する頻度、複合名詞Aが文書集合内で特定の動詞をヲ格、二格、デ格、ガ格等で修飾している頻度、文書集合内での複合名詞を含む文に存在する他の複合名詞の数の平均値からなる。これら第3及び第4の素性は、後述する専門用語判定部40における専門用語候補の特定において負例として利用されるものである。
Next, the term
用語素性生成部30によって生成された第1乃至第4の素性は、抽出されたN個の複合名詞Aとともに、専門用語判定部40へ送られる。
The first to fourth features generated by the term
専門用語判定部40は、N個の複合名詞Aのそれぞれについて、正例である第1及び第2の素性と、負例である第3及び第4の素性とに基づいて、専門用語辞書に登録すべき専門用語の可能性があるか否かを判定する(S105)。
For each of the N compound nouns A, the technical
ここでは、代表的な判定手法としてSVM(Support Vector Machine)学習による手法(Vapnik, V. N.著、「The Nature of Statistical Learning Theory, Springer」、1995年参照)を用いることができる。SVM学習による判定手法では、正例の第1及び第2の素性と、負例の第3及び第4の素性とを学習データとし、正例と負例を判別する学習を行うことが可能となる。従って、第1乃至第4の素性に基づいて、任意の文字列が専門用語であるか、非専門用語であるかを判別することができ、ユーザの専門用語辞書への専門用語の登録傾向に沿って、専門用語と非専門用語との判別を行うことが可能となる。 Here, a technique based on SVM (Support Vector Machine) learning (Vapnik, V. N., “The Nature of Statistical Learning Theory, Springer”, 1995) can be used as a representative determination technique. In the determination method based on SVM learning, the first and second features of the positive example and the third and fourth features of the negative example are used as learning data, and learning for discriminating between the positive example and the negative example can be performed. Become. Therefore, it is possible to determine whether an arbitrary character string is a technical term or a non-technical term based on the first to fourth features, and the tendency of registration of the technical term in the user's technical term dictionary is increased. Along with this, it is possible to distinguish between technical terms and non-technical terms.
更に、専門用語判定部40は、専門用語の可能性が高いと判定した複合名詞Aを、専門用語候補Bとして、専門用語候補記憶部50に記憶させる(S106)。
Further, the technical
図3は、仮名漢字変換用辞書登録システム100の専門用語の登録動作を示すフローチャートである。 FIG. 3 is a flowchart showing the registration operation of technical terms in the dictionary registration system 100 for kana-kanji conversion.
ユーザは、文書を作成するために、キーボード等の図示しない操作部を操作して日本語テキストの入力を行う。入力部70は、ユーザインターフェースを有し、ユーザによる操作部の操作に応じた(第2の文書)文書を作成する。文書作成時における仮名漢字変換には、専門用語辞書記憶部10に記憶された専門用語辞書が用いられる。作成された文書は、専門用語登録部60へ送られる。
In order to create a document, the user operates an operation unit (not shown) such as a keyboard to input Japanese text. The
専門用語登録部60は、入力部70からの文書を入力する(S201)。次に、専門用語登録部60は、入力した文書に含まれる文字列である複合名詞Cを特定し(S202)、当該複合名詞Cが専門用語候補記憶部50に記憶された専門用語候補Bのいずれかと一致するか否かを判定する(S203)。
The technical
複合名詞Cが専門用語候補Bのいずれとも一致しない場合には、一連の動作が終了する。一方、複合名詞Cが専門用語候補Bのいずれかと一致する場合、専門用語登録部60は、当該複合名詞Cを専門用語であると判定し(S204)、ユーザに対して専門用語を専門用語辞書へ登録することを促す画面(登録指示画面)をモニタ80に表示させる(S205)。
If the compound noun C does not match any of the technical term candidates B, the series of operations ends. On the other hand, when the compound noun C matches any one of the technical term candidates B, the technical
図4は、登録指示画面の一例を示す図である。図4に示す登録指示画面には、入力部70からの文書の内容301とともに、専門用語の登録の選択のための表示302が含まれている。更に、この登録の選択のための表示302には、専門用語の登録を行う場合に選択される「はい」と表示されたボタン303と、専門用語の登録を行わない場合に選択される「いいえ」と表示されたボタン304とが含まれている。
FIG. 4 is a diagram illustrating an example of a registration instruction screen. The registration instruction screen shown in FIG. 4 includes a
次に、専門用語登録部60は、ユーザによって専門用語の登録が指示されたか否かを判定する(S206)。例えば、ユーザがマウス等の図示しない操作部を操作して、図4に示す登録指示画面における「はい」と表示されたボタン303を選択した場合には、専門用語登録部60は、専門用語の登録が指示されたと判定し、「いいえ」と表示されたボタン304を選択した場合には、専門用語登録部60は、専門用語を登録しないことが指示されたと判定する。
Next, the technical
専門用語を登録しないことが指示された場合には、一連の動作が終了する。一方、専門用語の登録が指示された場合には、専門用語登録部60は、専門用語である複合名詞Cと、ユーザの操作部の操作に応じて入力される当該複合名詞Cの読みとを対応付けて、専門用語辞書記憶部10に記憶された専門用語辞書に登録する(S207)。
When it is instructed not to register a technical term, a series of operations is completed. On the other hand, when the registration of the technical term is instructed, the technical
その後、作成された文書は、文書記憶部20に記憶され、更に、図2に示す動作が行われて、専門用語候補記憶部50に記憶される専門用語候補が更新される。また、ユーザによって作成された文書を入力部70から入力する毎に、図3に示す動作が行われ、専門用語辞書記憶部10に記憶された専門用語辞書が更新される。
Thereafter, the created document is stored in the
図5は、仮名漢字変換用辞書登録システム100の専門用語の他の登録動作を示すフローチャートである。図5におけるS301乃至S307の動作は、図3におけるS301乃至S307の動作と同様であるので、その説明は省略する。 FIG. 5 is a flowchart showing another operation for registering technical terms in the dictionary registration system 100 for kana-kanji conversion. The operations in S301 through S307 in FIG. 5 are the same as the operations in S301 through S307 in FIG.
S306において、専門用語であると判定された複合名詞Cを登録しないことが指示されたと判定された場合、専門用語判定部40は、当該複合名詞Cが専門用語ではないと認識し、N個の複合名詞Aに追加する(S308)。
In S306, when it is determined that it is instructed not to register the compound noun C determined to be a technical term, the technical
ここで、専門用語判定部40は、ブースティングの機能を有している。ブースティングとは、誤り駆動型の機械学習手法であり、学習結果が正例と判定した事例が実際は負例であった場合に、その事例の判定結果を正しく修正するため、その事例の学習データを作為的に増加させる手法である(麻生英樹、 津田宏治、村田昇著、「パターン認識と学習の統計学」、岩波書店、2003年参照)。専門用語判定部40は、複合名詞Cを専門用語として登録しないという指示を、当該複合名詞Cが専門用語でないとみなし、N個の複合名詞Aに追加する。その後は、用語素性生成部30は、複合名詞Cについて、負例である第3及び第4の素性を生成する。これにより、その後の専門用語の判定においては、ユーザの判断を考慮して、より適切に対象の文字列が専門用語であるか否かを判定することができる。
Here, the technical
このように、仮名漢字変換用辞書登録システム100は、過去に作成された文書内の専門用語の特徴である第1の素性、当該専門用語の文書内での出現の態様の特徴を表す第2の素性、過去に作成された文書内の非専門用語の特徴である第3の素性、当該非専門用語の文書内での出現の態様の特徴を表す第4の素性に基づいて、新たに作成された文書内の文字列が専門用語であるか否かを判定し、専門用語であると判定された場合には専門用語辞書に登録するようにすることで、過去に作成された文書に基づいて、専門用語であるか否かを高い精度で判定することが可能となり、専門用語の専門用語辞書への登録を適切に行うことが可能となる。 As described above, the kana-kanji conversion dictionary registration system 100 has the first feature that is the feature of the technical term in the document created in the past, and the second feature that represents the feature of the appearance of the technical term in the document. Newly created based on the third feature that is the feature of the non-technical term in the document created in the past, and the fourth feature that represents the feature of the appearance of the non-technical term in the document. It is based on documents created in the past by determining whether or not the character string in the document is a technical term and registering it in the technical term dictionary if it is determined to be a technical term. Thus, it is possible to determine whether the term is a technical term with high accuracy, and it is possible to appropriately register the technical term in the technical term dictionary.
なお、上述した実施形態では、仮名漢字変換用辞書登録システム100は、パーソナルコンピュータ等の単体の情報処理装置内に構成されたが、ネットワークで接続された複数の情報処理装置によって構成されるようにしてもよい。 In the above-described embodiment, the kana-kanji conversion dictionary registration system 100 is configured in a single information processing apparatus such as a personal computer, but is configured by a plurality of information processing apparatuses connected via a network. May be.
図5は、仮名漢字変換用辞書登録システムの他の構成を示す図である。図5に示す仮名漢字変換用辞書登録システム500は、ネットワーク400に接続された複数のパーソナルコンピュータ(PC)200及びサーバ250と、当該サーバ250によって管理される専門用語辞書データベース(DB)260とにより構成される。
FIG. 5 is a diagram showing another configuration of the kana-kanji conversion dictionary registration system. A kana-kanji conversion dictionary registration system 500 shown in FIG. 5 includes a plurality of personal computers (PCs) 200 and a
PC100は、上述した仮名漢字変換用辞書登録システム100から専門用語辞書記憶部10を除いたものと同様の構成を有している。このPC100は、第1及び第2の素性を生成する場合、サーバ250に対して専門用語辞書DB260に記憶された専門用語辞書を要求する。サーバ250は、この要求に応じて、専門用語辞書DB260に記憶された専門用語辞書を読み出し、PC100へ送る。
The PC 100 has the same configuration as that obtained by removing the technical term
また、PC100は、専門用語を特定した場合、専門用語と当該専門用語の読みとを対応付けてネットワーク400を介して、サーバ250へ送信する。サーバ250は、受信した専門用語と当該専門用語の読みとを専門用語辞書DB260に記憶されている専門用語辞書に登録する。
In addition, when the technical term is specified, the PC 100 associates the technical term and the reading of the technical term and transmits the technical term to the
これにより、専門用語辞書を複数のユーザによって共有することができ、専門用語であるか否かを更に高い精度で判定することが可能となる。 As a result, the technical term dictionary can be shared by a plurality of users, and it can be determined with higher accuracy whether or not it is a technical term.
また、上述した実施形態では、専門用語の候補を特定し、その専門用語と一致する新たな文書内の文字列を専門用語であると判定し、更に、ユーザによって登録が指示された場合にのみ、当該文字列を専門用語辞書へ登録されるようにしたが、専門用語の候補がそのまま専門用語辞書に登録されるようにしてもよい。この場合には、ユーザの負担を軽減し、自動的に新たな専門用語を専門用語辞書に登録させることが可能となる。 Further, in the embodiment described above, a candidate for a technical term is specified, a character string in a new document that matches the technical term is determined to be a technical term, and only when registration is instructed by the user Although the character string is registered in the technical term dictionary, the technical term candidates may be registered in the technical term dictionary as they are. In this case, the burden on the user can be reduced and new technical terms can be automatically registered in the technical term dictionary.
以上、説明したように、本発明に係る仮名漢字変換用辞書登録システム、仮名漢字変換用辞書登録処理方法及び仮名漢字変換用辞書登録プログラムは、専門用語の仮名漢字変換用辞書への登録を適切に行うことが可能となり、仮名漢字変換用辞書登録システム等として有用である。 As described above, the kana-kanji conversion dictionary registration system, the kana-kanji conversion dictionary registration processing method, and the kana-kanji conversion dictionary registration program according to the present invention appropriately register technical terms in the kana-kanji conversion dictionary. This is useful as a dictionary registration system for kana-kanji conversion.
10 専門用語辞書記憶部
20 文書記憶部
30 用語素性生成部
40 専門用語判定部
50 専門用語候補記憶部
60 専門用語登録部
70 入力部
80 モニタ
100 仮名漢字変換用辞書登録システム
DESCRIPTION OF
Claims (13)
専門用語の仮名漢字変換用辞書を記憶する記憶手段と、
前記専門用語の特徴を表す第1の素性を生成する第1の生成手段と、
前記専門用語の第1の文書内での出現の態様の特徴を表す第2の素性を生成する第2の生成手段と、
前記第1及び第2の素性に基づいて、前記第1の文書及び前記第1の文書とは異なる入力された第2の文書のうちのいずれかの文字列が専門用語であるか否かを判定する判定手段と、
前記専門用語であると判定された文字列を前記仮名漢字変換用辞書に登録する登録手段とを有することを特徴とする仮名漢字変換用辞書登録システム。 A kana-kanji conversion dictionary registration system for registering terms in a kana-kanji conversion dictionary,
Storage means for storing a dictionary for conversion of technical terms to kana-kanji;
First generating means for generating a first feature representing the feature of the technical term;
Second generating means for generating a second feature representing a feature of an appearance mode of the technical term in the first document;
Based on the first and second features, whether or not any character string of the first document and the input second document different from the first document is a technical term Determination means for determining;
A kana-kanji conversion dictionary registration system comprising: a registering unit that registers a character string determined to be the technical term in the kana-kanji conversion dictionary.
前記第2の素性は、前記専門用語が前記第1の文書内で出現する頻度、前記専門用語が所定の格によって動詞を修飾している頻度、前記専門用語を含む文に含まれる他の専門用語の数の平均値を表すことを特徴とする請求項1又は2に記載の仮名漢字変換用辞書登録システム。 The first feature represents a part-of-speech string obtained by morphological analysis of the technical term, the number of characters of the technical term, and the content of katakana of the technical term,
The second feature includes the frequency with which the technical term appears in the first document, the frequency with which the technical term modifies the verb according to a predetermined case, and other specialties included in the sentence containing the technical term. The kana-kanji conversion dictionary registration system according to claim 1 or 2, wherein an average value of the number of terms is expressed.
前記第1の文書内の前記専門用語以外の文字列の前記第1の文書内での出現の態様の特徴を表す第4の素性を生成する第4の生成手段とを有し、
前記判定手段は、前記第3及び第4の素性に基づいて、前記第2の文書内の文字列が専門用語であるか否かを判定することを特徴とする請求項1乃至3のいずれかに記載の仮名漢字変換用辞書登録システム。 Third generation means for generating a third feature representing a character string characteristic other than the technical term in the first document;
And fourth generation means for generating a fourth feature representing a feature of an appearance mode of the character string other than the technical term in the first document in the first document,
4. The determination unit according to claim 1, wherein the determination unit determines whether the character string in the second document is a technical term based on the third and fourth features. The dictionary registration system for kana-kanji conversion described in 1.
前記第4の素性は、前記専門用語以外の文字列が前記第1の文書内で出現する頻度、前記専門用語以外の文字列が所定の格によって動詞を修飾している頻度、前記専門用語以外の文字列を含む文に含まれる他の専門用語以外の文字列の数の平均値を表すことを特徴とする請求項4に記載の仮名漢字変換用辞書登録システム。 The third feature represents a part-of-speech sequence obtained by morphological analysis of a character string other than the technical term, the number of characters of the character string other than the technical term, and the content of katakana in the character string other than the technical term,
The fourth feature is a frequency at which a character string other than the technical term appears in the first document, a frequency at which a character string other than the technical term modifies a verb according to a predetermined case, and other than the technical term 5. The dictionary registration system for kana-kanji conversion according to claim 4, representing an average value of the number of character strings other than other technical terms included in a sentence including the character string.
前記第4の素性生成手段は、前記専門用語であると判定された文字列のうち、前記仮名漢字変換用辞書に登録されなかった文字列について、前記第4の素性を生成することを特徴とする請求項4又は5に記載の仮名漢字変換用辞書登録システム。 The third feature generation means generates the third feature for a character string that is not registered in the kana-kanji conversion dictionary among character strings determined to be the technical term,
The fourth feature generation means generates the fourth feature for a character string that is not registered in the dictionary for kana-kanji conversion among character strings determined to be the technical term. The kana-kanji conversion dictionary registration system according to claim 4 or 5.
仮名漢字変換用辞書に含まれる専門用語の特徴を表す第1の素性を生成する第1の生成ステップと、
前記専門用語の第1の文書内での出現の態様の特徴を表す第2の素性を生成する第2の生成ステップと、
前記第1及び第2の素性に基づいて、前記第1の文書内及び第2の文書内のいずれかの文字列が専門用語であるか否かを判定する判定ステップと、
前記専門用語であると判定された文字列を前記仮名漢字変換用辞書に登録する登録ステップとを有することを特徴とする処理方法。 A processing method in a dictionary registration system for kana-kanji conversion that registers terms in a dictionary for kana-kanji conversion,
A first generation step of generating a first feature representing characteristics of technical terms included in the dictionary for kana-kanji conversion;
A second generating step for generating a second feature representing a feature of the appearance of the terminology in the first document;
A determination step of determining whether any one of the character strings in the first document and the second document is a technical term based on the first and second features;
And a registration step of registering a character string determined to be the technical term in the kana-kanji conversion dictionary.
前記第1の文書内の前記専門用語以外の文字列の前記第1の文書内での出現の態様の特徴を表す第4の素性を生成する第4の生成ステップとを有し、
前記判定ステップは、前記第3及び第4の素性に基づいて、前記第2の文書内の文字列が専門用語であるか否かを判定することを特徴とする請求項7又は8に記載の処理方法。 A third generation step of generating a third feature representing characteristics of a character string other than the technical terms in the first document;
A fourth generation step of generating a fourth feature representing a feature of an appearance mode of the character string other than the technical term in the first document in the first document;
9. The determination according to claim 7, wherein the determination step determines whether or not the character string in the second document is a technical term based on the third and fourth features. Processing method.
仮名漢字変換用辞書に含まれる専門用語の特徴を表す第1の素性を生成する第1の生成ステップと、
前記専門用語の第1の文書内での出現の態様の特徴を表す第2の素性を生成する第2の生成ステップと、
前記第1及び第2の素性に基づいて、前記第1の文書内及び第2の文書内のいずれかの文字列が専門用語であるか否かを判定する判定ステップと、
前記専門用語であると判定された文字列を前記仮名漢字変換用辞書に登録する登録ステップとを有することを特徴とするプログラム。 A program executed in a kana-kanji conversion dictionary registration system for registering terms in a kana-kanji conversion dictionary,
A first generation step of generating a first feature representing characteristics of technical terms included in the dictionary for kana-kanji conversion;
A second generating step for generating a second feature representing a feature of the appearance of the terminology in the first document;
A determination step of determining whether any one of the character strings in the first document and the second document is a technical term based on the first and second features;
And a registration step of registering a character string determined to be the technical term in the kana-kanji conversion dictionary.
前記第1の文書内の前記専門用語以外の文字列の前記第1の文書内での出現の態様の特徴を表す第4の素性を生成する第4の生成ステップとを有し、
前記判定ステップは、前記第3及び第4の素性に基づいて、前記第2の文書内の文字列が専門用語であるか否かを判定することを特徴とする請求項11又は12に記載のプログラム。 A third generation step of generating a third feature representing characteristics of a character string other than the technical terms in the first document;
A fourth generation step of generating a fourth feature representing a feature of an appearance mode of the character string other than the technical term in the first document in the first document;
The said determination step determines whether the character string in the said 2nd document is a technical term based on the said 3rd and 4th feature, It is characterized by the above-mentioned. program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006151170A JP2007323250A (en) | 2006-05-31 | 2006-05-31 | System, processing method and program for registering in dictionary for kana-kanji conversion |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006151170A JP2007323250A (en) | 2006-05-31 | 2006-05-31 | System, processing method and program for registering in dictionary for kana-kanji conversion |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2007323250A true JP2007323250A (en) | 2007-12-13 |
Family
ID=38856018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006151170A Pending JP2007323250A (en) | 2006-05-31 | 2006-05-31 | System, processing method and program for registering in dictionary for kana-kanji conversion |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2007323250A (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011100332A (en) * | 2009-11-06 | 2011-05-19 | Mixi Inc | Attribute analysis method by full name, program, and system |
-
2006
- 2006-05-31 JP JP2006151170A patent/JP2007323250A/en active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011100332A (en) * | 2009-11-06 | 2011-05-19 | Mixi Inc | Attribute analysis method by full name, program, and system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8935148B2 (en) | Computer-assisted natural language translation | |
US9881003B2 (en) | Automatic translation of digital graphic novels | |
JP5513898B2 (en) | Shared language model | |
WO2003065245A1 (en) | Translating method, translated sentence outputting method, recording medium, program, and computer device | |
JP2010520531A (en) | Integrated pinyin and image input | |
JP2008083952A (en) | Dictionary creation support system, method and program | |
JP2011113569A (en) | Apparatus and method for extracting circumscribed rectangle of character in transplantable electronic document | |
JP2010520532A (en) | Input stroke count | |
JP7309811B2 (en) | Data annotation method, apparatus, electronics and storage medium | |
JP5687312B2 (en) | Digital information analysis system, digital information analysis method, and digital information analysis program | |
JP5430312B2 (en) | Data processing apparatus, data name generation method, and computer program | |
JP5482236B2 (en) | Program and information processing apparatus | |
JP6568968B2 (en) | Document review device and program | |
JP2007323250A (en) | System, processing method and program for registering in dictionary for kana-kanji conversion | |
JP6221275B2 (en) | Character input program and character input device | |
JP2022074852A (en) | Dictionary editing device, dictionary editing method, and dictionary editing program | |
JP2017091024A (en) | Input assistance device | |
WO2014030258A1 (en) | Morphological analysis device, text analysis method, and program for same | |
JP2007310829A (en) | Data processor, data processing method and data processing program | |
JP2014199476A (en) | Machine translation device, machine translation method and program | |
JP7083473B2 (en) | Input support device | |
JP2007316834A (en) | Japanese sentence modification device, japanese sentence modification method, and program for japanese sentence modification | |
JP5941345B2 (en) | Character information analysis method, information analysis apparatus, and program | |
US20240135107A1 (en) | Natural language processing system, natural language processing method, and natural language processing program | |
JP7234010B2 (en) | Information processing device and information processing method |