JP2007323250A - System, processing method and program for registering in dictionary for kana-kanji conversion - Google Patents

System, processing method and program for registering in dictionary for kana-kanji conversion Download PDF

Info

Publication number
JP2007323250A
JP2007323250A JP2006151170A JP2006151170A JP2007323250A JP 2007323250 A JP2007323250 A JP 2007323250A JP 2006151170 A JP2006151170 A JP 2006151170A JP 2006151170 A JP2006151170 A JP 2006151170A JP 2007323250 A JP2007323250 A JP 2007323250A
Authority
JP
Japan
Prior art keywords
technical term
document
kana
character string
dictionary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006151170A
Other languages
Japanese (ja)
Inventor
Hiroshi Masuichi
博 増市
Tomoko Okuma
智子 大熊
Daigo Sugihara
大悟 杉原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2006151170A priority Critical patent/JP2007323250A/en
Publication of JP2007323250A publication Critical patent/JP2007323250A/en
Pending legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a system, a processing method and a program for registering in a dictionary for KANA-KANJI conversion, capable of appropriately registering technical terms in the dictionary for KANA-KANJI conversion. <P>SOLUTION: The system 100 for registering the dictionary for KANA-KANJI conversion resisters technical terms in a technical term dictionary that is the dictionary for the KANA-KANJI conversion, and includes a technical term dictionary storage unit 10 that registers the technical terms to the technical terms dictionary which is a KANA-KANJI conversion dictionary and stores the technical term dictionary; a term origin generation unit 30 generating first and second origin expressing features of technical terms and non-technical terms and generating third and fourth origin expressing features of aspects of appearances of the technical terms and non-technical terms in a document; and a technical term determining unit 40 and a technical term registering unit 60 determining whether or not character strings in a new document are the technical terms on the basis of the first to the fourth origin to register the character strings determined as the technical terms in the technical term dictionary. <P>COPYRIGHT: (C)2008,JPO&INPIT

Description

本発明は、用語を電子文書の作成において用いられる仮名漢字変換用辞書に登録する仮名漢字変換用辞書登録システム、当該仮名漢字変換用辞書登録システムにおける処理方法、及び、当該仮名漢字変換用辞書登録システムにおいて実行されるプログラムに関する。   The present invention relates to a kana-kanji conversion dictionary registration system for registering a term in a kana-kanji conversion dictionary used in creation of an electronic document, a processing method in the kana-kanji conversion dictionary registration system, and the kana-kanji conversion dictionary registration The present invention relates to a program executed in the system.

医療分野で作成される電子カルテのように専門性の高い内容の日本語の電子文書が作成される場合、仮名漢字変換用辞書には専門用語が登録されていないことが多く、仮名漢字変換に要する時間コストが大きくなるという問題がある。この問題を解決するためには、ユーザ、すなわち、文書の書き手が、予め、専門用語を仮名漢字変換用辞書に登録する必要がある。必要十分な量の専門用語(とその読み)が仮名漢字変換用辞書に登録されていれば、例えば、読みの先頭3文字を入力するだけで対応する変換候補を表示させることができる等、文書作成の効率化が可能となる。しかしながら、特に医療分野のように専門用語が膨大に存在する場合には、人手によって、仮名漢字変換用辞書への専門用語の登録を網羅的に行うことは困難である。   When an electronic document with a high level of expertise is created, such as an electronic medical record created in the medical field, technical terms are often not registered in the dictionary for kana-kanji conversion. There is a problem that the time cost required increases. In order to solve this problem, it is necessary for a user, that is, a document writer, to register technical terms in the kana-kanji conversion dictionary in advance. If a necessary and sufficient amount of technical terms (and their readings) are registered in the Kana-Kanji conversion dictionary, for example, the corresponding conversion candidates can be displayed simply by entering the first three characters of the reading. Creation efficiency can be improved. However, especially when there are a large number of technical terms, such as in the medical field, it is difficult to comprehensively register technical terms in the kana-kanji conversion dictionary manually.

仮名漢字変換用辞書への用語の登録に関しては、特許文献1に記載された技術では、複数のユーザが共通の仮名漢字変換用辞書を共有することにより、各ユーザの登録の負担を軽減するシステムが提案されている。また、特許文献2に記載された技術では、ユーザが実行した仮名漢字変換の事例を自動的に仮名漢字変換用辞書に登録することにより、ユーザによる登録作業の軽減を図るシステムが提案されている。
特開平11−66059号公報 特開平9−134354号公報
Regarding the registration of terms in the kana-kanji conversion dictionary, the technique described in Patent Document 1 is a system that reduces the burden of registration for each user by sharing a common kana-kanji conversion dictionary with a plurality of users. Has been proposed. Moreover, in the technique described in Patent Document 2, a system has been proposed in which the example of kana-kanji conversion performed by the user is automatically registered in the dictionary for kana-kanji conversion, thereby reducing the registration work by the user. .
Japanese Patent Laid-Open No. 11-66059 JP-A-9-134354

しかしながら、特許文献1におけるシステムを採用しても、依然として専門用語の網羅的な登録が可能になるとは言い難く、更には、複数のユーザが同一分野の文書を共同で作成している状況にない場合には効果を得ることができない。また、特許文献2に記載されたシステムでは、本来登録が必要でない用語までもが仮名漢字変換用辞書に登録されてしまう場合があり、その結果、不必要な変換候補が多数表示され、かえって文書作成の効率が低下してしまうという問題が生じる。   However, even if the system in Patent Document 1 is adopted, it is still difficult to say that comprehensive registration of technical terms is possible, and furthermore, there is no situation in which a plurality of users jointly create documents in the same field. In some cases, the effect cannot be obtained. Further, in the system described in Patent Document 2, even terms that do not necessarily need to be registered may be registered in the kana-kanji conversion dictionary. As a result, a large number of unnecessary conversion candidates are displayed, and instead the document There arises a problem that the production efficiency is lowered.

本発明の目的は、上述した問題を解決するものであり、専門用語の仮名漢字変換用辞書への登録を適切に行うことが可能な仮名漢字変換用辞書登録システム、仮名漢字変換用辞書登録処理方法及び仮名漢字変換用辞書登録プログラムを提供するものである。   SUMMARY OF THE INVENTION An object of the present invention is to solve the above-mentioned problems, and a kana-kanji conversion dictionary registration system and a kana-kanji conversion dictionary registration process capable of appropriately registering technical terms in a kana-kanji conversion dictionary. A method and a dictionary registration program for kana-kanji conversion are provided.

本発明に係る、用語を仮名漢字変換用辞書に登録する仮名漢字変換用辞書登録システムは、専門用語の仮名漢字変換用辞書を記憶する記憶手段と、前記専門用語の特徴を表す第1の素性を生成する第1の生成手段と、前記専門用語の第1の文書内での出現の態様の特徴を表す第2の素性を生成する第2の生成手段と、前記第1及び第2の素性に基づいて、前記第1の文書及び前記第1の文書とは異なる入力された第2の文書のうちのいずれかの文字列が専門用語であるか否かを判定する判定手段と、前記専門用語であると判定された文字列を前記仮名漢字変換用辞書に登録する登録手段とを有することを特徴とする。   A kana-kanji conversion dictionary registration system for registering a term in a dictionary for kana-kanji conversion according to the present invention includes a storage means for storing a dictionary for kana-kanji conversion of technical terms, and a first feature representing characteristics of the technical terms First generation means for generating a second feature for generating a second feature representing a feature of an appearance of the technical term in the first document, and the first and second features And determining means for determining whether a character string of any one of the first document and the input second document different from the first document is a technical term, Registration means for registering a character string determined to be a term in the dictionary for kana-kanji conversion.

この構成によれば、専門用語の特徴と、当該専門用語の第1の文書内での出現の態様の特徴とを解析し、これらに基づいて対象の文字列が専門用語であるか否かを判定し、専門用語であると判定された場合には仮名漢字変換用辞書に登録するようにすることで、過去に作成された文書に基づいて、専門用語であるか否かを高い精度で判定することが可能となり、専門用語の仮名漢字変換用辞書への登録を適切に行うことが可能となる。   According to this configuration, the feature of the technical term and the feature of the appearance of the technical term in the first document are analyzed, and based on these, whether the target character string is the technical term or not is determined. If it is determined that it is a technical term, it is registered in the dictionary for kana-kanji conversion so that it can be determined with high accuracy whether it is a technical term based on a previously created document. Thus, it becomes possible to appropriately register the technical terms in the kana-kanji conversion dictionary.

また、本発明の仮名漢字変換用辞書登録システムは、前記判定手段が、前記第1の文書内の前記専門用語以外の文字列のうち、専門用語の候補を特定し、前記第2の文書内の文字列が前記専門用語の候補と一致する場合に、該文字列が専門用語であると判定するようにしてもよい。   In the dictionary registration system for kana-kanji conversion according to the present invention, the determination unit specifies a candidate for a technical term out of character strings other than the technical term in the first document, and stores the candidate in the second document. If the character string matches the candidate for the technical term, it may be determined that the character string is a technical term.

この構成によれば、専門用語の候補と一致する文字列を専門用語として仮名漢字変換用辞書に登録することで、より適切に対象の文字列を仮名漢字変換用辞書に登録することが可能となる。   According to this configuration, it is possible to register the target character string in the kana-kanji conversion dictionary more appropriately by registering the character string that matches the candidate technical term as the technical term in the kana-kanji conversion dictionary. Become.

また、本発明の仮名漢字変換用辞書登録システムは、前記第1の素性が、前記専門用語を形態素解析して得られる品詞列、前記専門用語の文字数、前記専門用語のカタカナの含有率を表し、前記第2の素性が、前記専門用語が前記第1の文書内で出現する頻度、前記専門用語が所定の格によって動詞を修飾している頻度、前記専門用語を含む文に含まれる他の専門用語の数の平均値を表すようにしてもよい。   In the kana-kanji conversion dictionary registration system of the present invention, the first feature represents a part-of-speech sequence obtained by morphological analysis of the technical term, the number of characters of the technical term, and the content of katakana of the technical term. , The second feature is the frequency at which the terminology appears in the first document, the frequency at which the terminology modifies the verb by a predetermined case, and other sentences included in the sentence containing the terminology. You may make it represent the average value of the number of technical terms.

また、本発明の仮名漢字変換用辞書登録システムは、前記第1の文書内の前記専門用語以外の文字列の特徴を表す第3の素性を生成する第3の生成手段と、前記第1の文書内の前記専門用語以外の文字列の前記第1の文書内での出現の態様の特徴を表す第4の素性を生成する第4の生成手段とを有し、前記判定手段が、前記第3及び第4の素性に基づいて、前記第2の文書内の文字列が専門用語であるか否かを判定するようにしてもよい。   In addition, the kana-kanji conversion dictionary registration system of the present invention includes a third generation unit that generates a third feature representing a character string characteristic other than the technical term in the first document, and the first generation unit. And a fourth generation unit that generates a fourth feature representing a feature of appearance of the character string other than the technical term in the document in the first document, and the determination unit includes the first feature Based on the third and fourth features, it may be determined whether the character string in the second document is a technical term.

この構成によれば、専門用語の正例の特徴のみならず、負例の特徴に基づいて、より適切に対象の文字列が専門用語であるか否かを判定することができる。   According to this configuration, it is possible to more appropriately determine whether the target character string is a technical term based on not only the positive example feature of the technical term but also the negative example feature.

また、本発明の仮名漢字変換用辞書登録システムは、前記第3の素性が、前記専門用語以外の文字列を形態素解析して得られる品詞列、前記専門用語以外の文字列の文字数、前記専門用語以外の文字列のカタカナの含有率を表し、前記第4の素性が、前記専門用語以外の文字列が前記第1の文書内で出現する頻度、前記専門用語以外の文字列が所定の格によって動詞を修飾している頻度、前記専門用語以外の文字列を含む文に含まれる他の専門用語以外の文字列の数の平均値を表すようにしてもよい。   In the kana-kanji conversion dictionary registration system according to the present invention, the third feature is a part-of-speech sequence obtained by morphological analysis of a character string other than the technical term, the number of characters in the character string other than the technical term, It represents the content of katakana in a character string other than the term, the fourth feature is the frequency at which the character string other than the technical term appears in the first document, and the character string other than the technical term is a predetermined case. The frequency of modifying the verb may be represented by an average value of the number of character strings other than the technical terms included in the sentence including the character strings other than the technical terms.

また、本発明の仮名漢字変換用辞書登録システムは、前記登録手段が、前記専門用語であると判定された文字列のうち、所定の操作指示によって選択された文字列を前記仮名漢字変換用辞書に登録するようにしてもよい。   In the kana-kanji conversion dictionary registration system of the present invention, the kana-kanji conversion dictionary includes a character string selected by a predetermined operation instruction among the character strings determined by the registration means as the technical term. You may make it register to.

この構成によれば、ユーザが対象の文字列を仮名漢字変換用辞書に登録すべきが否かについての最終的な判断を行うようにすることで、より適切に対象の文字列を仮名漢字変換用辞書に登録することが可能となる。   According to this configuration, by making a final determination as to whether or not the user should register the target character string in the kana-kanji conversion dictionary, the target character string is more appropriately converted to kana-kanji conversion. It becomes possible to register in the dictionary for use.

また、本発明の仮名漢字変換用辞書登録システムは、前記第3の素性生成手段が、前記専門用語であると判定された文字列のうち、前記仮名漢字変換用辞書に登録されなかった文字列について、前記第3の素性を生成し、前記第4の素性生成手段が、前記専門用語であると判定された文字列のうち、前記仮名漢字変換用辞書に登録されなかった文字列について、前記第4の素性を生成するようにしてもよい。   In the kana-kanji conversion dictionary registration system according to the present invention, a character string that is not registered in the kana-kanji conversion dictionary among the character strings determined by the third feature generation means as the technical term. For the character string that is not registered in the dictionary for kana-kanji conversion among the character strings that are determined to be the technical term, the fourth feature generation means generates the third feature, A fourth feature may be generated.

この構成によれば、専門用語であると判定されたものの、例えば、ユーザによって仮名漢字変換辞書への登録が指示されなかった文字列については、専門用語ではないもの、すなわち、負例として扱い、第3及び第4の素性が生成されるようにすることで、その後の専門用語の判定において、専門用語の正例及び負例の特徴に基づいて、より適切に対象の文字列が専門用語であるか否かを判定することができる。   According to this configuration, although it is determined to be a technical term, for example, a character string that is not instructed to be registered in the kana-kanji conversion dictionary by the user is treated as a negative term, that is, as a negative example, By causing the third and fourth features to be generated, in the subsequent determination of the technical term, the target character string is more appropriately converted into the technical term based on the characteristics of the positive and negative examples of the technical term. It can be determined whether or not there is.

本発明に係る、用語を仮名漢字変換用辞書に登録する仮名漢字変換用辞書登録システムにおける処理方法は、仮名漢字変換用辞書に含まれる専門用語の特徴を表す第1の素性を生成する第1の生成ステップと、前記専門用語の第1の文書内での出現の態様の特徴を表す第2の素性を生成する第2の生成ステップと、前記第1及び第2の素性に基づいて、前記第1の文書内及び第2の文書内のいずれかの文字列が専門用語であるか否かを判定する判定ステップと、前記専門用語であると判定された文字列を前記仮名漢字変換用辞書に登録する登録ステップとを有することを特徴とする。   According to the present invention, a processing method in a kana-kanji conversion dictionary registration system for registering a term in a kana-kanji conversion dictionary generates a first feature representing a feature of a technical term included in the kana-kanji conversion dictionary. Based on the first and second features, a second generating step for generating a second feature that represents a feature of the appearance of the terminology in the first document, and A determination step of determining whether any one of the character strings in the first document and the second document is a technical term, and the character string determined to be the technical term as the dictionary for kana-kanji conversion And a registration step of registering to the system.

また、本発明の処理方法は、前記判定ステップが、前記第1の文書内の前記専門用語以外の文字列のうち、専門用語の候補を特定し、前記第2の文書内の文字列が前記専門用語の候補と一致する場合に、該文字列が専門用語であると判定するようにしてもよい。   Further, in the processing method of the present invention, the determination step specifies technical term candidates among character strings other than the technical terms in the first document, and the character strings in the second document are When matching with a candidate for a technical term, it may be determined that the character string is a technical term.

また、本発明の処理方法は、前記第1の文書内の前記専門用語以外の文字列の特徴を表す第3の素性を生成する第3の生成ステップと、前記第1の文書内の前記専門用語以外の文字列の前記第1の文書内での出現の態様の特徴を表す第4の素性を生成する第4の生成ステップとを有し、前記判定ステップが、前記第3及び第4の素性に基づいて、前記第2の文書内の文字列が専門用語であるか否かを判定するようにしてもよい。   The processing method of the present invention includes a third generation step of generating a third feature representing a character string characteristic other than the technical terms in the first document, and the special processing in the first document. A fourth generation step of generating a fourth feature representing a feature of the appearance of the character string other than the term in the first document, and the determination step includes the third and fourth steps. Based on the feature, it may be determined whether the character string in the second document is a technical term.

本発明に係る、用語を仮名漢字変換用辞書に登録する仮名漢字変換用辞書登録システムにおいて実行されるプログラムは、仮名漢字変換用辞書に含まれる専門用語の特徴を表す第1の素性を生成する第1の生成ステップと、前記専門用語の第1の文書内での出現の態様の特徴を表す第2の素性を生成する第2の生成ステップと、前記第1及び第2の素性に基づいて、前記第1の文書内及び第2の文書内のいずれかの文字列が専門用語であるか否かを判定する判定ステップと、前記専門用語であると判定された文字列を前記仮名漢字変換用辞書に登録する登録ステップとを有することを特徴とする。   The program executed in the kana-kanji conversion dictionary registration system for registering a term in the kana-kanji conversion dictionary according to the present invention generates a first feature representing the characteristics of the technical terms included in the kana-kanji conversion dictionary. A first generation step, a second generation step for generating a second feature representing a feature of the appearance of the technical term in the first document, and the first and second features. A determination step of determining whether any one of the character strings in the first document and the second document is a technical term, and converting the character string determined to be the technical term into the kana-kanji conversion And a registration step of registering in the dictionary for use.

また、本発明のプログラムは、前記判定ステップが、前記第1の文書内の前記専門用語以外の文字列のうち、専門用語の候補を特定し、前記第2の文書内の文字列が前記専門用語の候補と一致する場合に、該文字列が専門用語であると判定するようにしてもよい。   Further, in the program according to the present invention, the determining step specifies a candidate for a technical term among character strings other than the technical term in the first document, and the character string in the second document is the specialized text. When matching with a term candidate, the character string may be determined to be a technical term.

また、本発明のプログラムは、前記第1の文書内の前記専門用語以外の文字列の特徴を表す第3の素性を生成する第3の生成ステップと、前記第1の文書内の前記専門用語以外の文字列の前記第1の文書内での出現の態様の特徴を表す第4の素性を生成する第4の生成ステップとを有し、前記判定ステップが、前記第3及び第4の素性に基づいて、前記第2の文書内の文字列が専門用語であるか否かを判定するようにしてもよい。   The program of the present invention includes a third generation step of generating a third feature representing a character string characteristic other than the technical term in the first document, and the technical term in the first document. And a fourth generation step for generating a fourth feature representing the feature of the appearance mode of the character string other than the first character in the first document, and the determination step includes the third and fourth features. Based on the above, it may be determined whether the character string in the second document is a technical term.

本発明によれば、専門用語の特徴と、当該専門用語の文書内での出現の態様の特徴とに基づいて対象の文字列が専門用語であるか否かを判定することによって、専門用語の仮名漢字変換用辞書への登録を適切に行うことが可能となる。   According to the present invention, by determining whether a target character string is a technical term based on characteristics of the technical term and characteristics of an appearance mode of the technical term in the document, It becomes possible to appropriately register in the kana-kanji conversion dictionary.

本発明の実施の形態について、図面を参照して具体的に説明する。図1は、仮名漢字変換用辞書登録システムの構成例を示す図である。同図に示す仮名漢字変換用辞書登録システム100は、パーソナルコンピュータ等の単体の情報処理装置によって構成されるものであり、電子文書に含まれる用語のうち、専門用語を特定し、仮名漢字変換用辞書に登録する。   Embodiments of the present invention will be specifically described with reference to the drawings. FIG. 1 is a diagram showing a configuration example of a dictionary registration system for kana-kanji conversion. The kana-kanji conversion dictionary registration system 100 shown in the figure is configured by a single information processing apparatus such as a personal computer, and identifies technical terms among terms included in an electronic document, for kana-kanji conversion. Register in the dictionary.

この仮名漢字変換用辞書登録システム100は、記憶手段に対応する専門用語辞書記憶部10と、文書記憶部20と、第1乃至第4の生成手段に対応する用語素性生成部30と、判定手段に対応する専門用語判定部40と、専門用語候補記憶部50と、判定手段及び登録手段に対応する専門用語登録部60と、入力部70と、モニタ80とにより構成される。これらのうち、専門用語辞書記憶部10、文書記憶部20、用語素性生成部30、専門用語判定部40、専門用語候補記憶部50及び専門用語登録部60は、CPUとメモリによって構成され、CPUが所定のプログラムを実行することによって実現される。   This kana-kanji conversion dictionary registration system 100 includes a technical term dictionary storage unit 10 corresponding to a storage unit, a document storage unit 20, a term feature generation unit 30 corresponding to first to fourth generation units, and a determination unit. The technical term determination unit 40, the technical term candidate storage unit 50, the technical term registration unit 60 corresponding to the determination unit and the registration unit, the input unit 70, and the monitor 80. Among these, the technical term dictionary storage unit 10, the document storage unit 20, the term feature generation unit 30, the technical term determination unit 40, the technical term candidate storage unit 50, and the technical term registration unit 60 are configured by a CPU and a memory. Is realized by executing a predetermined program.

専門用語辞書記憶部10は、医療分野の専門用語が登録されている仮名漢字変換辞書(専門用語辞書)を記憶している。専門用語辞書には、専門用語の文字列と当該専門用語の読みとが対応付けて登録されている。文書記憶部20は、専門用語辞書を利用して作成され、当該専門用語を含んだ電子文書の集合を記憶している。   The technical term dictionary storage unit 10 stores a kana-kanji conversion dictionary (technical term dictionary) in which technical terms in the medical field are registered. In the technical term dictionary, a character string of a technical term and a reading of the technical term are registered in association with each other. The document storage unit 20 is created using a technical term dictionary, and stores a set of electronic documents including the technical term.

用語素性生成部30は、専門用語辞書登録部10に記憶された専門用語辞書に登録されている専門用語について、当該専門用語の特徴を表す第1の素性、及び、当該専門用語が文書記憶部20に記憶されている第1の文書の集合である文書集合内でどのような態様で出現しているのかを表す第2の素性を生成する。   The term feature generation unit 30 includes a first feature that represents a feature of the technical term for the technical term registered in the technical term dictionary stored in the technical term dictionary registration unit 10, and the technical term is a document storage unit. A second feature is generated that indicates how the document set is appearing in the document set that is the set of first documents stored in 20.

専門用語判定部40は、用語素性生成部30によって生成された第1及び第2の素性に基づいて、文書記憶部20に記憶されている文書集合における、専門用語辞書に登録されている専門用語以外の任意の文字列について、専門用語の可能性があるか否かを判定する。専門用語候補記憶部50は、専門用語の可能性があると判定された文字列を専門用語候補として記憶する。   The technical term determination unit 40 is a technical term registered in the technical term dictionary in the document set stored in the document storage unit 20 based on the first and second features generated by the term feature generation unit 30. For any character string other than, it is determined whether there is a possibility of a technical term. The technical term candidate storage unit 50 stores a character string determined to be a technical term as a technical term candidate.

専門用語登録部60は、専門用語候補記憶部50に記憶された専門用語候補に基づいて、入力部70が受け付けたユーザによって作成された文書内の任意の文字列が専門用語であるか否かを判定する。文字列が専門用語である場合、専門用語登録部60は、その専門用語と、当該専門用語の読みとを対応付けて専門用語辞書記憶部10に記憶された専門用語辞書に追加する。   The technical term registration unit 60 determines whether an arbitrary character string in the document created by the user received by the input unit 70 is a technical term based on the technical term candidate stored in the technical term candidate storage unit 50. Determine. When the character string is a technical term, the technical term registration unit 60 adds the technical term and the reading of the technical term in association with each other to the technical term dictionary stored in the technical term dictionary storage unit 10.

以下、フローチャートを参照しつつ、仮名漢字変換用辞書登録システム100の詳細な動作を説明する。図2は、仮名漢字変換用辞書登録システム100の専門用語候補の抽出動作を示すフローチャートである。   The detailed operation of the kana-kanji conversion dictionary registration system 100 will be described below with reference to the flowchart. FIG. 2 is a flowchart showing the extraction operation of technical term candidates of the dictionary registration system 100 for kana-kanji conversion.

用語素性生成部30は、専門用語辞書登録部10に記憶された専門用語辞書に登録されている専門用語について、専門用語を形態素解析して得られる品詞列、専門用語の文字数、専門用語のカタカナの含有率からなる第1の素性と、専門用語が文書集合内で出現する頻度、専門用語が文書集合内で特定の動詞をヲ格、二格、デ格、ガ格等で修飾している頻度、文書集合内での専門用語を含む文に存在する他の専門用語の数の平均値からなる第2の素性を生成する(S101)。   The term feature generation unit 30, for the technical terms registered in the technical term dictionary stored in the technical term dictionary registration unit 10, the part-of-speech string obtained by morphological analysis of the technical terms, the number of characters of the technical terms, the katakana of the technical terms The first feature consisting of the percentage of content, the frequency with which technical terms appear in the document set, and the special terms in the document set qualify specific verbs as wo case, second case, de case, ga case, etc. A second feature comprising an average value of the frequency and the number of other technical terms existing in the sentence including technical terms in the document set is generated (S101).

例えば、専門用語が「αリポ酸」の場合、第1の素性における、専門用語を形態素解析して得られる品詞列は「ギリシア文字−カタカナ−接尾辞」となり、専門用語の文字数は4文字であり、専門用語のカタカナ含有率は2/4=50%である。また、専門用語が「αリポ酸」であり、文書集合内に「αリポ酸を処方する」という表現が47箇所存在する場合には、第2の素性における、専門用語が文書集合内で動詞「処方する」をヲ格で修飾している頻度は47となる。これら第1及び第2の素性は、後述する専門用語判定部40における専門用語候補の特定において正例として利用されるものである。   For example, when the technical term is “α lipoic acid”, the part-of-speech sequence obtained by morphological analysis of the technical term in the first feature is “Greek letter-Katakana-suffix”, and the technical term has 4 characters. Yes, the katakana content of the technical term is 2/4 = 50%. If the technical term is “α lipoic acid” and there are 47 expressions “prescribe α lipoic acid” in the document set, the technical term in the second feature is a verb in the document set. The frequency of modifying “Prescribe” with wo is 47. These first and second features are used as positive examples in specifying technical term candidates in the technical term determination unit 40 described later.

次に、用語素性生成部30は、第1及び第2の素性に基づいて、文書記憶部20に記憶されている文書集合のうち、専門用語辞書に登録されていない文字列を特定し、更に、当該文字列のうち、複合名詞Aを抽出する(S102)。更に、用語素性生成部30は、抽出した複合名詞Aを、文書記憶部20に記憶されている文書集合における出現頻度の少ない順に並べ替えを行い、当該頻度の少ない上位N個を抽出する(S103)。   Next, the term feature generation unit 30 specifies a character string that is not registered in the technical term dictionary from the document set stored in the document storage unit 20 based on the first and second features, The compound noun A is extracted from the character string (S102). Further, the term feature generation unit 30 rearranges the extracted compound nouns A in the order of appearance frequency in the document set stored in the document storage unit 20, and extracts the top N items having the lower frequency (S103). ).

次に、用語素性生成部30は、抽出したN個の複合名詞Aについて、当該複合名詞Aの特徴を表す第3の素性、及び、当該複合名詞Aが文書記憶部20に記憶されている文書集合内でどのような態様で出現しているのかを表す第4の素性を生成する(S104)。具体的には、第3の素性は、第1の素性と同様、複合名詞Aを形態素解析して得られる品詞列、複合名詞Aの文字数、複合名詞Aのカタカナの含有率からなり、第4の素性は、第2の素性と同様、複合名詞Aが文書集合内で出現する頻度、複合名詞Aが文書集合内で特定の動詞をヲ格、二格、デ格、ガ格等で修飾している頻度、文書集合内での複合名詞を含む文に存在する他の複合名詞の数の平均値からなる。これら第3及び第4の素性は、後述する専門用語判定部40における専門用語候補の特定において負例として利用されるものである。   Next, the term feature generation unit 30 extracts, for the extracted N compound nouns A, the third feature representing the characteristics of the compound noun A and the document in which the compound noun A is stored in the document storage unit 20. A fourth feature is generated that indicates what kind of aspect appears in the set (S104). Specifically, the third feature includes a part-of-speech sequence obtained by morphological analysis of the compound noun A, the number of characters of the compound noun A, and the content of katakana of the compound noun A, as in the first feature. The feature of, like the second feature, is the frequency with which the compound noun A appears in the document set, and the compound noun A modifies the specific verb in the document set with wo case, second case, de case, ga case, etc. Frequency, and an average value of the number of other compound nouns existing in a sentence including compound nouns in a document set. These third and fourth features are used as negative examples in specifying technical term candidates in the technical term determination unit 40 described later.

用語素性生成部30によって生成された第1乃至第4の素性は、抽出されたN個の複合名詞Aとともに、専門用語判定部40へ送られる。   The first to fourth features generated by the term feature generation unit 30 are sent to the technical term determination unit 40 together with the extracted N compound nouns A.

専門用語判定部40は、N個の複合名詞Aのそれぞれについて、正例である第1及び第2の素性と、負例である第3及び第4の素性とに基づいて、専門用語辞書に登録すべき専門用語の可能性があるか否かを判定する(S105)。   For each of the N compound nouns A, the technical term determination unit 40 creates a technical term dictionary based on the first and second features that are positive examples and the third and fourth features that are negative examples. It is determined whether there is a possibility of a technical term to be registered (S105).

ここでは、代表的な判定手法としてSVM(Support Vector Machine)学習による手法(Vapnik, V. N.著、「The Nature of Statistical Learning Theory, Springer」、1995年参照)を用いることができる。SVM学習による判定手法では、正例の第1及び第2の素性と、負例の第3及び第4の素性とを学習データとし、正例と負例を判別する学習を行うことが可能となる。従って、第1乃至第4の素性に基づいて、任意の文字列が専門用語であるか、非専門用語であるかを判別することができ、ユーザの専門用語辞書への専門用語の登録傾向に沿って、専門用語と非専門用語との判別を行うことが可能となる。   Here, a technique based on SVM (Support Vector Machine) learning (Vapnik, V. N., “The Nature of Statistical Learning Theory, Springer”, 1995) can be used as a representative determination technique. In the determination method based on SVM learning, the first and second features of the positive example and the third and fourth features of the negative example are used as learning data, and learning for discriminating between the positive example and the negative example can be performed. Become. Therefore, it is possible to determine whether an arbitrary character string is a technical term or a non-technical term based on the first to fourth features, and the tendency of registration of the technical term in the user's technical term dictionary is increased. Along with this, it is possible to distinguish between technical terms and non-technical terms.

更に、専門用語判定部40は、専門用語の可能性が高いと判定した複合名詞Aを、専門用語候補Bとして、専門用語候補記憶部50に記憶させる(S106)。   Further, the technical term determination unit 40 stores the compound noun A determined as having a high possibility of the technical term in the technical term candidate storage unit 50 as the technical term candidate B (S106).

図3は、仮名漢字変換用辞書登録システム100の専門用語の登録動作を示すフローチャートである。   FIG. 3 is a flowchart showing the registration operation of technical terms in the dictionary registration system 100 for kana-kanji conversion.

ユーザは、文書を作成するために、キーボード等の図示しない操作部を操作して日本語テキストの入力を行う。入力部70は、ユーザインターフェースを有し、ユーザによる操作部の操作に応じた(第2の文書)文書を作成する。文書作成時における仮名漢字変換には、専門用語辞書記憶部10に記憶された専門用語辞書が用いられる。作成された文書は、専門用語登録部60へ送られる。   In order to create a document, the user operates an operation unit (not shown) such as a keyboard to input Japanese text. The input unit 70 has a user interface and creates a (second document) document according to the operation of the operation unit by the user. A technical term dictionary stored in the technical term dictionary storage unit 10 is used for kana-kanji conversion at the time of document creation. The created document is sent to the technical term registration unit 60.

専門用語登録部60は、入力部70からの文書を入力する(S201)。次に、専門用語登録部60は、入力した文書に含まれる文字列である複合名詞Cを特定し(S202)、当該複合名詞Cが専門用語候補記憶部50に記憶された専門用語候補Bのいずれかと一致するか否かを判定する(S203)。   The technical term registration unit 60 inputs the document from the input unit 70 (S201). Next, the technical term registration unit 60 specifies a compound noun C that is a character string included in the input document (S202), and the compound noun C is stored in the technical term candidate storage unit 50. It is determined whether or not it matches any one (S203).

複合名詞Cが専門用語候補Bのいずれとも一致しない場合には、一連の動作が終了する。一方、複合名詞Cが専門用語候補Bのいずれかと一致する場合、専門用語登録部60は、当該複合名詞Cを専門用語であると判定し(S204)、ユーザに対して専門用語を専門用語辞書へ登録することを促す画面(登録指示画面)をモニタ80に表示させる(S205)。   If the compound noun C does not match any of the technical term candidates B, the series of operations ends. On the other hand, when the compound noun C matches any one of the technical term candidates B, the technical term registration unit 60 determines that the compound noun C is a technical term (S204), and the technical term is referred to the technical term dictionary for the user. A screen (registration instruction screen) for prompting registration is displayed on the monitor 80 (S205).

図4は、登録指示画面の一例を示す図である。図4に示す登録指示画面には、入力部70からの文書の内容301とともに、専門用語の登録の選択のための表示302が含まれている。更に、この登録の選択のための表示302には、専門用語の登録を行う場合に選択される「はい」と表示されたボタン303と、専門用語の登録を行わない場合に選択される「いいえ」と表示されたボタン304とが含まれている。   FIG. 4 is a diagram illustrating an example of a registration instruction screen. The registration instruction screen shown in FIG. 4 includes a document 302 from the input unit 70 and a display 302 for selecting technical term registration. Further, the display 302 for selecting the registration includes a button 303 displayed as “Yes” selected when registering the technical term, and “No” selected when not registering the technical term. ”Is displayed.

次に、専門用語登録部60は、ユーザによって専門用語の登録が指示されたか否かを判定する(S206)。例えば、ユーザがマウス等の図示しない操作部を操作して、図4に示す登録指示画面における「はい」と表示されたボタン303を選択した場合には、専門用語登録部60は、専門用語の登録が指示されたと判定し、「いいえ」と表示されたボタン304を選択した場合には、専門用語登録部60は、専門用語を登録しないことが指示されたと判定する。   Next, the technical term registration unit 60 determines whether or not registration of technical terms is instructed by the user (S206). For example, when the user operates an operation unit (not shown) such as a mouse and selects the button 303 displayed as “Yes” on the registration instruction screen shown in FIG. 4, the technical term registration unit 60 displays the technical term If it is determined that registration has been instructed and the button 304 displayed as “No” is selected, the technical term registration unit 60 determines that it has been instructed not to register the technical term.

専門用語を登録しないことが指示された場合には、一連の動作が終了する。一方、専門用語の登録が指示された場合には、専門用語登録部60は、専門用語である複合名詞Cと、ユーザの操作部の操作に応じて入力される当該複合名詞Cの読みとを対応付けて、専門用語辞書記憶部10に記憶された専門用語辞書に登録する(S207)。   When it is instructed not to register a technical term, a series of operations is completed. On the other hand, when the registration of the technical term is instructed, the technical term registration unit 60 reads the compound noun C that is the technical term and the reading of the compound noun C that is input according to the operation of the operation unit of the user. Correspondingly, it is registered in the technical term dictionary stored in the technical term dictionary storage unit 10 (S207).

その後、作成された文書は、文書記憶部20に記憶され、更に、図2に示す動作が行われて、専門用語候補記憶部50に記憶される専門用語候補が更新される。また、ユーザによって作成された文書を入力部70から入力する毎に、図3に示す動作が行われ、専門用語辞書記憶部10に記憶された専門用語辞書が更新される。   Thereafter, the created document is stored in the document storage unit 20, and the operation shown in FIG. 2 is further performed to update the technical term candidates stored in the technical term candidate storage unit 50. Further, every time a document created by the user is input from the input unit 70, the operation shown in FIG. 3 is performed, and the technical term dictionary stored in the technical term dictionary storage unit 10 is updated.

図5は、仮名漢字変換用辞書登録システム100の専門用語の他の登録動作を示すフローチャートである。図5におけるS301乃至S307の動作は、図3におけるS301乃至S307の動作と同様であるので、その説明は省略する。   FIG. 5 is a flowchart showing another operation for registering technical terms in the dictionary registration system 100 for kana-kanji conversion. The operations in S301 through S307 in FIG. 5 are the same as the operations in S301 through S307 in FIG.

S306において、専門用語であると判定された複合名詞Cを登録しないことが指示されたと判定された場合、専門用語判定部40は、当該複合名詞Cが専門用語ではないと認識し、N個の複合名詞Aに追加する(S308)。   In S306, when it is determined that it is instructed not to register the compound noun C determined to be a technical term, the technical term determination unit 40 recognizes that the compound noun C is not a technical term, and N N It adds to compound noun A (S308).

ここで、専門用語判定部40は、ブースティングの機能を有している。ブースティングとは、誤り駆動型の機械学習手法であり、学習結果が正例と判定した事例が実際は負例であった場合に、その事例の判定結果を正しく修正するため、その事例の学習データを作為的に増加させる手法である(麻生英樹、 津田宏治、村田昇著、「パターン認識と学習の統計学」、岩波書店、2003年参照)。専門用語判定部40は、複合名詞Cを専門用語として登録しないという指示を、当該複合名詞Cが専門用語でないとみなし、N個の複合名詞Aに追加する。その後は、用語素性生成部30は、複合名詞Cについて、負例である第3及び第4の素性を生成する。これにより、その後の専門用語の判定においては、ユーザの判断を考慮して、より適切に対象の文字列が専門用語であるか否かを判定することができる。   Here, the technical term determination unit 40 has a boosting function. Boosting is an error-driven machine learning method. When a case where the learning result is determined to be a positive example is actually a negative example, in order to correct the determination result of that case correctly, the learning data of that case (See Hideki Aso, Koji Tsuda, Noboru Murata, “Statistics of Pattern Recognition and Learning”, Iwanami Shoten, 2003). The technical term determining unit 40 regards that the compound noun C is not a technical term and adds it to the N compound nouns A as an instruction not to register the compound noun C as a technical term. Thereafter, the term feature generation unit 30 generates the third and fourth features that are negative examples for the compound noun C. Thereby, in determination of a technical term after that, it can be determined more appropriately whether a target character string is a technical term in consideration of a user's judgment.

このように、仮名漢字変換用辞書登録システム100は、過去に作成された文書内の専門用語の特徴である第1の素性、当該専門用語の文書内での出現の態様の特徴を表す第2の素性、過去に作成された文書内の非専門用語の特徴である第3の素性、当該非専門用語の文書内での出現の態様の特徴を表す第4の素性に基づいて、新たに作成された文書内の文字列が専門用語であるか否かを判定し、専門用語であると判定された場合には専門用語辞書に登録するようにすることで、過去に作成された文書に基づいて、専門用語であるか否かを高い精度で判定することが可能となり、専門用語の専門用語辞書への登録を適切に行うことが可能となる。   As described above, the kana-kanji conversion dictionary registration system 100 has the first feature that is the feature of the technical term in the document created in the past, and the second feature that represents the feature of the appearance of the technical term in the document. Newly created based on the third feature that is the feature of the non-technical term in the document created in the past, and the fourth feature that represents the feature of the appearance of the non-technical term in the document. It is based on documents created in the past by determining whether or not the character string in the document is a technical term and registering it in the technical term dictionary if it is determined to be a technical term. Thus, it is possible to determine whether the term is a technical term with high accuracy, and it is possible to appropriately register the technical term in the technical term dictionary.

なお、上述した実施形態では、仮名漢字変換用辞書登録システム100は、パーソナルコンピュータ等の単体の情報処理装置内に構成されたが、ネットワークで接続された複数の情報処理装置によって構成されるようにしてもよい。   In the above-described embodiment, the kana-kanji conversion dictionary registration system 100 is configured in a single information processing apparatus such as a personal computer, but is configured by a plurality of information processing apparatuses connected via a network. May be.

図5は、仮名漢字変換用辞書登録システムの他の構成を示す図である。図5に示す仮名漢字変換用辞書登録システム500は、ネットワーク400に接続された複数のパーソナルコンピュータ(PC)200及びサーバ250と、当該サーバ250によって管理される専門用語辞書データベース(DB)260とにより構成される。   FIG. 5 is a diagram showing another configuration of the kana-kanji conversion dictionary registration system. A kana-kanji conversion dictionary registration system 500 shown in FIG. 5 includes a plurality of personal computers (PCs) 200 and a server 250 connected to a network 400, and a technical term dictionary database (DB) 260 managed by the server 250. Composed.

PC100は、上述した仮名漢字変換用辞書登録システム100から専門用語辞書記憶部10を除いたものと同様の構成を有している。このPC100は、第1及び第2の素性を生成する場合、サーバ250に対して専門用語辞書DB260に記憶された専門用語辞書を要求する。サーバ250は、この要求に応じて、専門用語辞書DB260に記憶された専門用語辞書を読み出し、PC100へ送る。   The PC 100 has the same configuration as that obtained by removing the technical term dictionary storage unit 10 from the kana-kanji conversion dictionary registration system 100 described above. When the PC 100 generates the first and second features, the PC 100 requests the technical term dictionary stored in the technical term dictionary DB 260 from the server 250. In response to this request, the server 250 reads the technical term dictionary stored in the technical term dictionary DB 260 and sends it to the PC 100.

また、PC100は、専門用語を特定した場合、専門用語と当該専門用語の読みとを対応付けてネットワーク400を介して、サーバ250へ送信する。サーバ250は、受信した専門用語と当該専門用語の読みとを専門用語辞書DB260に記憶されている専門用語辞書に登録する。   In addition, when the technical term is specified, the PC 100 associates the technical term and the reading of the technical term and transmits the technical term to the server 250 via the network 400. The server 250 registers the received technical term and the reading of the technical term in the technical term dictionary stored in the technical term dictionary DB 260.

これにより、専門用語辞書を複数のユーザによって共有することができ、専門用語であるか否かを更に高い精度で判定することが可能となる。   As a result, the technical term dictionary can be shared by a plurality of users, and it can be determined with higher accuracy whether or not it is a technical term.

また、上述した実施形態では、専門用語の候補を特定し、その専門用語と一致する新たな文書内の文字列を専門用語であると判定し、更に、ユーザによって登録が指示された場合にのみ、当該文字列を専門用語辞書へ登録されるようにしたが、専門用語の候補がそのまま専門用語辞書に登録されるようにしてもよい。この場合には、ユーザの負担を軽減し、自動的に新たな専門用語を専門用語辞書に登録させることが可能となる。   Further, in the embodiment described above, a candidate for a technical term is specified, a character string in a new document that matches the technical term is determined to be a technical term, and only when registration is instructed by the user Although the character string is registered in the technical term dictionary, the technical term candidates may be registered in the technical term dictionary as they are. In this case, the burden on the user can be reduced and new technical terms can be automatically registered in the technical term dictionary.

以上、説明したように、本発明に係る仮名漢字変換用辞書登録システム、仮名漢字変換用辞書登録処理方法及び仮名漢字変換用辞書登録プログラムは、専門用語の仮名漢字変換用辞書への登録を適切に行うことが可能となり、仮名漢字変換用辞書登録システム等として有用である。   As described above, the kana-kanji conversion dictionary registration system, the kana-kanji conversion dictionary registration processing method, and the kana-kanji conversion dictionary registration program according to the present invention appropriately register technical terms in the kana-kanji conversion dictionary. This is useful as a dictionary registration system for kana-kanji conversion.

仮名漢字変換用辞書登録システムの構成を示す図である。It is a figure which shows the structure of the dictionary registration system for kana-kanji conversion. 仮名漢字変換用辞書登録システムの専門用語候補特定の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the technical term candidate specification of the dictionary registration system for kana-kanji conversion. 仮名漢字変換用辞書登録システムの専門用語登録の動作を示すフローチャートである。It is a flowchart which shows operation | movement of the technical term registration of the dictionary registration system for kana-kanji conversion. 登録指示画面の一例を示す図である。It is a figure which shows an example of a registration instruction | indication screen. 仮名漢字変換用辞書登録システムの専門用語登録の他の動作を示すフローチャートである。It is a flowchart which shows other operation | movement of the technical term registration of the dictionary registration system for kana-kanji conversion. 仮名漢字変換用辞書登録システムの他の構成を示す図である。It is a figure which shows the other structure of the dictionary registration system for kana-kanji conversion.

符号の説明Explanation of symbols

10 専門用語辞書記憶部
20 文書記憶部
30 用語素性生成部
40 専門用語判定部
50 専門用語候補記憶部
60 専門用語登録部
70 入力部
80 モニタ
100 仮名漢字変換用辞書登録システム
DESCRIPTION OF SYMBOLS 10 Technical term dictionary memory | storage part 20 Document memory | storage part 30 Term feature generation part 40 Technical term judgment part 50 Technical term candidate memory | storage part 60 Technical term registration part 70 Input part 80 Monitor 100 Kana / Kanji conversion dictionary registration system

Claims (13)

用語を仮名漢字変換用辞書に登録する仮名漢字変換用辞書登録システムであって、
専門用語の仮名漢字変換用辞書を記憶する記憶手段と、
前記専門用語の特徴を表す第1の素性を生成する第1の生成手段と、
前記専門用語の第1の文書内での出現の態様の特徴を表す第2の素性を生成する第2の生成手段と、
前記第1及び第2の素性に基づいて、前記第1の文書及び前記第1の文書とは異なる入力された第2の文書のうちのいずれかの文字列が専門用語であるか否かを判定する判定手段と、
前記専門用語であると判定された文字列を前記仮名漢字変換用辞書に登録する登録手段とを有することを特徴とする仮名漢字変換用辞書登録システム。
A kana-kanji conversion dictionary registration system for registering terms in a kana-kanji conversion dictionary,
Storage means for storing a dictionary for conversion of technical terms to kana-kanji;
First generating means for generating a first feature representing the feature of the technical term;
Second generating means for generating a second feature representing a feature of an appearance mode of the technical term in the first document;
Based on the first and second features, whether or not any character string of the first document and the input second document different from the first document is a technical term Determination means for determining;
A kana-kanji conversion dictionary registration system comprising: a registering unit that registers a character string determined to be the technical term in the kana-kanji conversion dictionary.
前記判定手段は、前記第1の文書内の前記専門用語以外の文字列のうち、専門用語の候補を特定し、前記第2の文書内の文字列が前記専門用語の候補と一致する場合に、該文字列が専門用語であると判定することを特徴とする請求項1に記載の仮名漢字変換用辞書登録システム。   The determination unit identifies a technical term candidate among character strings other than the technical term in the first document, and the character string in the second document matches the technical term candidate. The kana-kanji conversion dictionary registration system according to claim 1, wherein the character string is determined to be a technical term. 前記第1の素性は、前記専門用語を形態素解析して得られる品詞列、前記専門用語の文字数、前記専門用語のカタカナの含有率を表し、
前記第2の素性は、前記専門用語が前記第1の文書内で出現する頻度、前記専門用語が所定の格によって動詞を修飾している頻度、前記専門用語を含む文に含まれる他の専門用語の数の平均値を表すことを特徴とする請求項1又は2に記載の仮名漢字変換用辞書登録システム。
The first feature represents a part-of-speech string obtained by morphological analysis of the technical term, the number of characters of the technical term, and the content of katakana of the technical term,
The second feature includes the frequency with which the technical term appears in the first document, the frequency with which the technical term modifies the verb according to a predetermined case, and other specialties included in the sentence containing the technical term. The kana-kanji conversion dictionary registration system according to claim 1 or 2, wherein an average value of the number of terms is expressed.
前記第1の文書内の前記専門用語以外の文字列の特徴を表す第3の素性を生成する第3の生成手段と、
前記第1の文書内の前記専門用語以外の文字列の前記第1の文書内での出現の態様の特徴を表す第4の素性を生成する第4の生成手段とを有し、
前記判定手段は、前記第3及び第4の素性に基づいて、前記第2の文書内の文字列が専門用語であるか否かを判定することを特徴とする請求項1乃至3のいずれかに記載の仮名漢字変換用辞書登録システム。
Third generation means for generating a third feature representing a character string characteristic other than the technical term in the first document;
And fourth generation means for generating a fourth feature representing a feature of an appearance mode of the character string other than the technical term in the first document in the first document,
4. The determination unit according to claim 1, wherein the determination unit determines whether the character string in the second document is a technical term based on the third and fourth features. The dictionary registration system for kana-kanji conversion described in 1.
前記第3の素性は、前記専門用語以外の文字列を形態素解析して得られる品詞列、前記専門用語以外の文字列の文字数、前記専門用語以外の文字列のカタカナの含有率を表し、
前記第4の素性は、前記専門用語以外の文字列が前記第1の文書内で出現する頻度、前記専門用語以外の文字列が所定の格によって動詞を修飾している頻度、前記専門用語以外の文字列を含む文に含まれる他の専門用語以外の文字列の数の平均値を表すことを特徴とする請求項4に記載の仮名漢字変換用辞書登録システム。
The third feature represents a part-of-speech sequence obtained by morphological analysis of a character string other than the technical term, the number of characters of the character string other than the technical term, and the content of katakana in the character string other than the technical term,
The fourth feature is a frequency at which a character string other than the technical term appears in the first document, a frequency at which a character string other than the technical term modifies a verb according to a predetermined case, and other than the technical term 5. The dictionary registration system for kana-kanji conversion according to claim 4, representing an average value of the number of character strings other than other technical terms included in a sentence including the character string.
前記登録手段は、前記専門用語であると判定された文字列のうち、所定の操作指示によって選択された文字列を前記仮名漢字変換用辞書に登録することを特徴とする請求項1乃至5のいずれかに記載の仮名漢字変換用辞書登録システム。   6. The registration means for registering a character string selected by a predetermined operation instruction among character strings determined to be the technical term in the kana-kanji conversion dictionary. A dictionary registration system for kana-kanji conversion according to any one of the above. 前記第3の素性生成手段は、前記専門用語であると判定された文字列のうち、前記仮名漢字変換用辞書に登録されなかった文字列について、前記第3の素性を生成し、
前記第4の素性生成手段は、前記専門用語であると判定された文字列のうち、前記仮名漢字変換用辞書に登録されなかった文字列について、前記第4の素性を生成することを特徴とする請求項4又は5に記載の仮名漢字変換用辞書登録システム。
The third feature generation means generates the third feature for a character string that is not registered in the kana-kanji conversion dictionary among character strings determined to be the technical term,
The fourth feature generation means generates the fourth feature for a character string that is not registered in the dictionary for kana-kanji conversion among character strings determined to be the technical term. The kana-kanji conversion dictionary registration system according to claim 4 or 5.
用語を仮名漢字変換用辞書に登録する仮名漢字変換用辞書登録システムにおける処理方法であって、
仮名漢字変換用辞書に含まれる専門用語の特徴を表す第1の素性を生成する第1の生成ステップと、
前記専門用語の第1の文書内での出現の態様の特徴を表す第2の素性を生成する第2の生成ステップと、
前記第1及び第2の素性に基づいて、前記第1の文書内及び第2の文書内のいずれかの文字列が専門用語であるか否かを判定する判定ステップと、
前記専門用語であると判定された文字列を前記仮名漢字変換用辞書に登録する登録ステップとを有することを特徴とする処理方法。
A processing method in a dictionary registration system for kana-kanji conversion that registers terms in a dictionary for kana-kanji conversion,
A first generation step of generating a first feature representing characteristics of technical terms included in the dictionary for kana-kanji conversion;
A second generating step for generating a second feature representing a feature of the appearance of the terminology in the first document;
A determination step of determining whether any one of the character strings in the first document and the second document is a technical term based on the first and second features;
And a registration step of registering a character string determined to be the technical term in the kana-kanji conversion dictionary.
前記判定ステップは、前記第1の文書内の前記専門用語以外の文字列のうち、専門用語の候補を特定し、前記第2の文書内の文字列が前記専門用語の候補と一致する場合に、該文字列が専門用語であると判定することを特徴とする請求項8に記載の処理方法。   The determination step specifies a technical term candidate from character strings other than the technical term in the first document, and the character string in the second document matches the technical term candidate. The processing method according to claim 8, wherein the character string is determined to be a technical term. 前記第1の文書内の前記専門用語以外の文字列の特徴を表す第3の素性を生成する第3の生成ステップと、
前記第1の文書内の前記専門用語以外の文字列の前記第1の文書内での出現の態様の特徴を表す第4の素性を生成する第4の生成ステップとを有し、
前記判定ステップは、前記第3及び第4の素性に基づいて、前記第2の文書内の文字列が専門用語であるか否かを判定することを特徴とする請求項7又は8に記載の処理方法。
A third generation step of generating a third feature representing characteristics of a character string other than the technical terms in the first document;
A fourth generation step of generating a fourth feature representing a feature of an appearance mode of the character string other than the technical term in the first document in the first document;
9. The determination according to claim 7, wherein the determination step determines whether or not the character string in the second document is a technical term based on the third and fourth features. Processing method.
用語を仮名漢字変換用辞書に登録する仮名漢字変換用辞書登録システムにおいて実行されるプログラムであって、
仮名漢字変換用辞書に含まれる専門用語の特徴を表す第1の素性を生成する第1の生成ステップと、
前記専門用語の第1の文書内での出現の態様の特徴を表す第2の素性を生成する第2の生成ステップと、
前記第1及び第2の素性に基づいて、前記第1の文書内及び第2の文書内のいずれかの文字列が専門用語であるか否かを判定する判定ステップと、
前記専門用語であると判定された文字列を前記仮名漢字変換用辞書に登録する登録ステップとを有することを特徴とするプログラム。
A program executed in a kana-kanji conversion dictionary registration system for registering terms in a kana-kanji conversion dictionary,
A first generation step of generating a first feature representing characteristics of technical terms included in the dictionary for kana-kanji conversion;
A second generating step for generating a second feature representing a feature of the appearance of the terminology in the first document;
A determination step of determining whether any one of the character strings in the first document and the second document is a technical term based on the first and second features;
And a registration step of registering a character string determined to be the technical term in the kana-kanji conversion dictionary.
前記判定ステップは、前記第1の文書内の前記専門用語以外の文字列のうち、専門用語の候補を特定し、前記第2の文書内の文字列が前記専門用語の候補と一致する場合に、該文字列が専門用語であると判定することを特徴とする請求項11に記載のプログラム。   The determination step specifies a technical term candidate from character strings other than the technical term in the first document, and the character string in the second document matches the technical term candidate. The program according to claim 11, wherein the character string is determined to be a technical term. 前記第1の文書内の前記専門用語以外の文字列の特徴を表す第3の素性を生成する第3の生成ステップと、
前記第1の文書内の前記専門用語以外の文字列の前記第1の文書内での出現の態様の特徴を表す第4の素性を生成する第4の生成ステップとを有し、
前記判定ステップは、前記第3及び第4の素性に基づいて、前記第2の文書内の文字列が専門用語であるか否かを判定することを特徴とする請求項11又は12に記載のプログラム。
A third generation step of generating a third feature representing characteristics of a character string other than the technical terms in the first document;
A fourth generation step of generating a fourth feature representing a feature of an appearance mode of the character string other than the technical term in the first document in the first document;
The said determination step determines whether the character string in the said 2nd document is a technical term based on the said 3rd and 4th feature, It is characterized by the above-mentioned. program.
JP2006151170A 2006-05-31 2006-05-31 System, processing method and program for registering in dictionary for kana-kanji conversion Pending JP2007323250A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006151170A JP2007323250A (en) 2006-05-31 2006-05-31 System, processing method and program for registering in dictionary for kana-kanji conversion

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006151170A JP2007323250A (en) 2006-05-31 2006-05-31 System, processing method and program for registering in dictionary for kana-kanji conversion

Publications (1)

Publication Number Publication Date
JP2007323250A true JP2007323250A (en) 2007-12-13

Family

ID=38856018

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006151170A Pending JP2007323250A (en) 2006-05-31 2006-05-31 System, processing method and program for registering in dictionary for kana-kanji conversion

Country Status (1)

Country Link
JP (1) JP2007323250A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011100332A (en) * 2009-11-06 2011-05-19 Mixi Inc Attribute analysis method by full name, program, and system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011100332A (en) * 2009-11-06 2011-05-19 Mixi Inc Attribute analysis method by full name, program, and system

Similar Documents

Publication Publication Date Title
US8935148B2 (en) Computer-assisted natural language translation
US9881003B2 (en) Automatic translation of digital graphic novels
JP5513898B2 (en) Shared language model
WO2003065245A1 (en) Translating method, translated sentence outputting method, recording medium, program, and computer device
JP2010520531A (en) Integrated pinyin and image input
JP2008083952A (en) Dictionary creation support system, method and program
JP2011113569A (en) Apparatus and method for extracting circumscribed rectangle of character in transplantable electronic document
JP2010520532A (en) Input stroke count
JP7309811B2 (en) Data annotation method, apparatus, electronics and storage medium
JP5687312B2 (en) Digital information analysis system, digital information analysis method, and digital information analysis program
JP5430312B2 (en) Data processing apparatus, data name generation method, and computer program
JP5482236B2 (en) Program and information processing apparatus
JP6568968B2 (en) Document review device and program
JP2007323250A (en) System, processing method and program for registering in dictionary for kana-kanji conversion
JP6221275B2 (en) Character input program and character input device
JP2022074852A (en) Dictionary editing device, dictionary editing method, and dictionary editing program
JP2017091024A (en) Input assistance device
WO2014030258A1 (en) Morphological analysis device, text analysis method, and program for same
JP2007310829A (en) Data processor, data processing method and data processing program
JP2014199476A (en) Machine translation device, machine translation method and program
JP7083473B2 (en) Input support device
JP2007316834A (en) Japanese sentence modification device, japanese sentence modification method, and program for japanese sentence modification
JP5941345B2 (en) Character information analysis method, information analysis apparatus, and program
US20240135107A1 (en) Natural language processing system, natural language processing method, and natural language processing program
JP7234010B2 (en) Information processing device and information processing method