JP2008217398A - Technical term classification device, technical term classification method, and program - Google Patents
Technical term classification device, technical term classification method, and program Download PDFInfo
- Publication number
- JP2008217398A JP2008217398A JP2007053771A JP2007053771A JP2008217398A JP 2008217398 A JP2008217398 A JP 2008217398A JP 2007053771 A JP2007053771 A JP 2007053771A JP 2007053771 A JP2007053771 A JP 2007053771A JP 2008217398 A JP2008217398 A JP 2008217398A
- Authority
- JP
- Japan
- Prior art keywords
- classification
- term
- technical
- search
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 70
- 238000009825 accumulation Methods 0.000 claims description 10
- 230000009471 action Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 description 56
- 238000012545 processing Methods 0.000 description 33
- 238000013519 translation Methods 0.000 description 27
- 238000010586 diagram Methods 0.000 description 10
- 230000033001 locomotion Effects 0.000 description 10
- 239000004065 semiconductor Substances 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 7
- 150000001875 compounds Chemical class 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 241000282320 Panthera leo Species 0.000 description 1
- 241001494479 Pecora Species 0.000 description 1
- 229910052782 aluminium Inorganic materials 0.000 description 1
- XAGFODPZIPBFFR-UHFFFAOYSA-N aluminium Chemical compound [Al] XAGFODPZIPBFFR-UHFFFAOYSA-N 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000010931 gold Substances 0.000 description 1
- 229910052737 gold Inorganic materials 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、専門用語を分類する専門用語分類装置等に関する。 The present invention relates to a technical term classification device for classifying technical terms.
近年、人手によって行われていた言語処理を、自動化する種々の方法が開発されてきている。例えば、「どのような技術がいつ頃から使われているのか」を示す技術動向を示す情報を自動的に作成する方法が開発されている(例えば、非特許文献1参照)。
言語処理を自動化することにより、今まで人手では容易に入手することができなかった大量のアウトプットを得ることもできる。しかしながら、あまりにもアウトプットの量が多い場合には、ユーザにとって、そのアウトプットは非常にわかりにくいものとなってしまう。したがって、例えば、そのアウトプットを分類するなどの工夫が必要となる。 By automating language processing, it is possible to obtain a large amount of output that has not been easily available by hand until now. However, if the amount of output is too large, the output will be very difficult for the user to understand. Therefore, it is necessary to devise, for example, to classify the output.
例えば、自動化された言語処理によるアウトプットが専門用語である場合には、あらかじめ専門用語を分類した結果の情報を用いることによって、そのアウトプットの専門用語を自動的に分類することが可能となる。なお、その専門用語を分類した結果の情報を人手で作成することは、多大な時間と労力を課すことになってしまうという問題がある。また、そのような専門用語を分類できるのは、専門分野に精通した人だけであり、そのような人を確保することは非常に難しいという問題もある。 For example, when the output from automated language processing is a technical term, it is possible to automatically classify the technical term of the output by using information obtained as a result of classifying the technical term in advance. . In addition, there is a problem that creating information as a result of classifying the technical terms manually requires a great deal of time and labor. In addition, such technical terms can only be classified by those who are familiar with the specialized field, and it is very difficult to secure such people.
本発明は、上記のような事情を考慮してなされたものであり、専門用語を自動的に分類することができる専門用語分類装置等を提供することを目的とする。 The present invention has been made in consideration of the above-described circumstances, and an object thereof is to provide a technical term classification device that can automatically classify technical terms.
上記目的を達成するため、本発明による専門用語分類装置は、2以上の専門用語が記憶される専門用語記憶部と、専門用語に隣接しうる語句である隣接語句が記憶される隣接語句記憶部と、前記専門用語記憶部で記憶されている専門用語に、前記隣接語句記憶部で記憶されている隣接語句を隣接させた検索用語を構成し、特定の分野における文献を示す情報である複数の文献情報において、当該検索用語を検索する検索部と、前記検索部による検索結果に応じて、検索用語に含まれる専門用語を分類する分類部と、前記分類部によって分類された結果を示す情報である分類結果情報が記憶される分類結果情報記憶部と、前記分類結果情報記憶部で記憶されている分類結果情報を出力する出力部と、を備えたものである。 In order to achieve the above object, the technical term classification device according to the present invention includes a technical term storage unit that stores two or more technical terms, and an adjacent term storage unit that stores adjacent phrases that can be adjacent to the technical terms. And a plurality of pieces of information indicating a document in a specific field by configuring a search term in which the adjacent term stored in the adjacent term storage unit is adjacent to the technical term stored in the technical term storage unit. In the document information, a search unit that searches for the search term, a classification unit that classifies the technical terms included in the search term according to a search result by the search unit, and information that indicates a result classified by the classification unit A classification result information storage unit that stores certain classification result information; and an output unit that outputs the classification result information stored in the classification result information storage unit.
このような構成により、専門用語を分類して、その分類の結果である分類結果情報を得ることができる。したがって、その分類結果情報を用いることによって、例えば、種々の言語処理の結果を分類することなどが可能となる。また、その専門用語の分類を自動的に行うことによって、多大な時間や労力が必要なく、また、専門分野に精通した人を確保する必要もないというメリットもある。 With such a configuration, it is possible to classify technical terms and obtain classification result information that is a result of the classification. Therefore, by using the classification result information, for example, it is possible to classify various language processing results. Moreover, by automatically classifying the technical terms, there is a merit that a lot of time and labor are not required, and it is not necessary to secure a person who is familiar with the specialized field.
また、本発明による専門用語分類装置では、複数の文献情報が記憶される文献情報記憶部をさらに備え、前記検索部は、前記文献情報記憶部で記憶されている複数の文献情報において、検索用語を検索してもよい。
このような構成により、専門用語分類装置が有している文献情報記憶部で記憶されている文献情報を用いて、専門用語の分類を行うことができる。
The technical term classification device according to the present invention further includes a document information storage unit in which a plurality of document information is stored, and the search unit includes a search term in the plurality of document information stored in the document information storage unit. You may search for.
With such a configuration, it is possible to classify technical terms using the literature information stored in the literature information storage unit included in the technical term classification device.
また、本発明による専門用語分類装置では、前記隣接語句は、専門用語の先頭に隣接しうる接頭語、あるいは、専門用語の末尾に隣接しうる接尾語であり、前記分類部は、前記検索部の検索した検索用語が文献情報に含まれていた場合に、当該検索用語を構成する専門用語を、当該検索用語を構成する隣接語句に応じて分類してもよい。
このような構成により、接頭語や接尾語である隣接語句を用いて検索用語を構成し、その検索用語の検索を行うことによって専門用語を分類することができる。
Further, in the technical term classification device according to the present invention, the adjacent phrase is a prefix that can be adjacent to the beginning of the technical term or a suffix that can be adjacent to the end of the technical term, and the classification unit is the search unit In the case where the retrieved search terms are included in the literature information, the technical terms constituting the search terms may be classified according to the adjacent terms constituting the search terms.
With such a configuration, it is possible to classify the technical terms by configuring the search terms using the adjacent words and phrases that are prefixes and suffixes, and searching the search terms.
また、本発明による専門用語分類装置では、前記分類部は、前記検索部の検索した検索用語が文献情報に所定の回数以上含まれていた場合に、当該検索用語を構成する専門用語の分類を行ってもよい。
このような構成により、ヒット数の少ない検索用語に含まれる専門用語を分類しないようにすることができうる。
In the technical term classification device according to the present invention, the classification unit classifies the technical terms constituting the search term when the search term searched by the search unit is included in the document information a predetermined number of times or more. You may go.
With such a configuration, it is possible to prevent classification of technical terms included in search terms with a small number of hits.
また、本発明による専門用語分類装置では、前記隣接語句は、複数のグループに分かれており、前記分類部は、前記検索部の検索した検索用語が文献情報に含まれていた場合に、当該検索用語を構成する専門用語を、当該検索用語を構成する隣接語句のグループに応じて分類してもよい。
このような構成により、例えば、近似する隣接語句を用いて検索された検索用語に含まれる専門用語を、同じ分類に属するようにすることができうる。
Further, in the technical term classification device according to the present invention, the adjacent words / phrases are divided into a plurality of groups, and the classification unit performs the search when the search term searched by the search unit is included in the literature information. The technical terms constituting the term may be classified according to the group of adjacent words constituting the search term.
With such a configuration, for example, technical terms included in a search term that is searched using similar neighboring words can be made to belong to the same category.
また、本発明による専門用語分類装置では、前記分類部は、前記検索部の検索した検索用語の検索結果数に対応付けて、前記専門用語の分類を行ってもよい。
このような構成により、例えば、分類結果情報に含まれる検索結果数を、その後の分類結果情報に関する解析等において用いることができる。
In the technical term classification device according to the present invention, the classification unit may perform classification of the technical term in association with the number of search results of the search term searched by the search unit.
With such a configuration, for example, the number of search results included in the classification result information can be used in subsequent analysis on the classification result information.
また、本発明による専門用語分類装置では、前記隣接語句は、専門用語の末尾に隣接することにより、動作を示す用語を構成しうる接尾語であり、前記分類部は、前記検索用語の含まれる1以上の文を文献情報から取得する取得手段と、前記取得手段の取得した1以上の文において、前記検索用語に対する入力語及び/または出力語を特定する特定手段と、前記特定手段の特定した入力語及び/または出力語を、前記検索用語を構成する専門用語に対応付けて蓄積する蓄積手段と、前記蓄積手段の蓄積した入力語及び/または出力語に応じて、当該入力語及び/または出力語に対応する専門用語を分類する分類手段と、を備えてもよい。 In the technical term classification device according to the present invention, the adjacent word / phrase is a suffix that can constitute a term indicating an action by being adjacent to the end of the technical term, and the classification unit includes the search term. An acquisition unit that acquires one or more sentences from literature information, a specification unit that specifies an input word and / or an output word for the search term in one or more sentences acquired by the acquisition unit, and a specification of the specification unit Storage means for storing input words and / or output words in association with technical terms constituting the search terms, and depending on the input words and / or output words stored in the storage means, the input words and / or output words Classification means for classifying technical terms corresponding to the output words may be provided.
このような構成により、入力語及び/または出力語を用いて分類を行うため、例えば、処理の対象となる情報や、処理の結果となる情報ごとに、専門用語を分類することができる。
また、本発明による専門用語分類装置では、前記分類手段は、入力語及び/または出力語の共通する専門用語を、同じ分類に分類してもよい。
このような構成により、例えば、分類の範囲を狭くすることができる。
With such a configuration, classification is performed using input words and / or output words. For example, technical terms can be classified for each piece of information to be processed and information to be processed.
In the technical term classification device according to the present invention, the classification unit may classify technical terms common to input words and / or output words into the same classification.
With such a configuration, for example, the range of classification can be narrowed.
また、本発明による専門用語分類装置では、前記分類手段は、入力語及び/または出力語の概念が共通する専門用語を、同じ分類に分類してもよい。
このような構成により、例えば、分類の範囲を広くすることができる。
In the technical term classification device according to the present invention, the classification means may classify technical terms having the same concept of input words and / or output words into the same classification.
With such a configuration, for example, the range of classification can be widened.
また、本発明による専門用語分類装置では、複数の専門用語が同じ分類に属するかどうか判断するための辞書を示す情報である辞書情報が記憶される辞書情報記憶部と、前記専門用語記憶部で記憶されている、分類対象である専門用語が、すでに分類されている専門用語と同じ分類に属するかどうかを、前記辞書情報を参照して判断する判断部と、前記判断部により、前記分類対象である専門用語が、すでに分類されている専門用語と同じ分類に属すると判断された場合に、当該分類対象である専門用語を、すでに分類されている専門用語と同じ分類に分類する追加分類部と、をさらに備えてもよい。
このような構成により、分類結果情報に対して、専門用語をさらに分類して追加することができ、分類結果情報を拡張することができうる。
In the technical term classification device according to the present invention, a dictionary information storage unit that stores dictionary information, which is information indicating a dictionary for determining whether or not a plurality of technical terms belong to the same classification, and the technical term storage unit A judgment unit that judges whether the stored technical term that is the classification target belongs to the same classification as the technical term that has already been classified, with reference to the dictionary information; An additional classification unit that classifies technical terms that are subject to classification into the same classification as technical terms that are already classified when it is determined that the technical terms that belong to the same technical terms that are already classified And may be further provided.
With such a configuration, technical terms can be further classified and added to the classification result information, and the classification result information can be expanded.
また、本発明による専門用語分類装置では、前記辞書情報は、同義語の辞書を示す情報であり、前記判断部は、2個の専門用語が同義語の関係にある場合に、同じ分類に属すると判断してもよい。 In the technical term classification device according to the present invention, the dictionary information is information indicating a dictionary of synonyms, and the determination unit belongs to the same classification when two technical terms have a synonym relationship. You may judge.
このような構成により、同義語の関係にある専門用語は、同一の分類に属するであろうと考えられるところ、その同義語の辞書を示す情報を用いることによって、分類結果情報を拡張することができる。 With such a configuration, technical terms that are related to synonyms are considered to belong to the same classification, but the classification result information can be expanded by using information indicating a dictionary of the synonyms. .
また、本発明による専門用語分類装置では、前記辞書情報は、上位語と下位語との対応を示す情報であり、前記判断部は、上位語の専門用語に対応する複数の下位語の専門用語が、同じ分類に属する場合に、当該上位語の専門用語が、当該下位語の専門用語が属する分類に属すると判断してもよい。 In the technical term classification device according to the present invention, the dictionary information is information indicating correspondence between a broader word and a narrower word, and the determination unit includes technical terms of a plurality of narrower words corresponding to the broader terminology. However, when belonging to the same classification, it may be determined that the technical term of the broader term belongs to the classification to which the technical term of the lower term belongs.
このような構成により、多くの下位語に共通する性質を上位語も有するであろうと考えられるところ、例えば、上位下位シソーラスのような上位語と下位語との対応を示す情報を用いることによって、分類結果情報を拡張することができる。 With such a configuration, it is considered that the broader word will also have a property common to many narrower words, for example, by using information indicating the correspondence between the broader word and the narrower word, such as a broader thesaurus. Classification result information can be expanded.
また、本発明による専門用語分類装置は、専門用語が記憶される専門用語記憶部と、専門用語が分類された結果を示す情報である分類結果情報が記憶される分類結果情報記憶部と、複数の専門用語が同じ分類に属するかどうか判断するための辞書を示す情報である辞書情報が記憶される辞書情報記憶部と、前記専門用語記憶部で記憶されている、分類対象である専門用語が、すでに分類されている専門用語と同じ分類に属するかどうかを、前記辞書情報を参照して判断する判断部と、前記判断部により、前記分類対象である専門用語が、すでに分類されている専門用語と同じ分類に属すると判断された場合に、当該分類対象である専門用語を、すでに分類されている専門用語と同じ分類に分類する追加分類部と、前記分類結果情報記憶部で記憶されている分類結果情報を出力する出力部と、を備えたものである。
このような構成により、分類結果情報に対して、専門用語をさらに分類して追加することができ、分類結果情報を拡張することができうる。
Further, the technical term classification device according to the present invention includes a technical term storage unit that stores technical terms, a classification result information storage unit that stores classification result information that is information indicating a result of classification of technical terms, A dictionary information storage unit storing dictionary information that is a dictionary for determining whether the technical terms belong to the same classification, and a technical term that is a classification target stored in the technical term storage unit A judgment unit that judges whether or not the technical term that belongs to the same category as the technical term that has already been classified by referring to the dictionary information, and the technical term that is the classification target by the judgment unit When it is determined that the term belongs to the same category as the term, an additional classifying unit that classifies the technical term to be classified into the same category as the technical term that has already been classified, and the classification result information storage unit An output unit for outputting a classification result information that is, those having a.
With such a configuration, technical terms can be further classified and added to the classification result information, and the classification result information can be expanded.
本発明による専門用語分類装置等によれば、専門用語を分類して、その分類の結果である分類結果情報を得ることができる。したがって、その分類結果情報を用いることによって、例えば、種々の言語処理の結果を分類することなどが可能となる。また、その専門用語の分類を自動的に行うことによって、多大な時間や労力が必要なく、また、専門分野に精通した人を確保する必要もない。 According to the technical term classification device and the like according to the present invention, it is possible to classify technical terms and obtain classification result information which is a result of the classification. Therefore, by using the classification result information, for example, it is possible to classify various language processing results. Further, by automatically classifying the technical terms, a great deal of time and labor is not required, and it is not necessary to secure a person who is familiar with the specialized field.
以下、本発明による専門用語分類装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。 Hereinafter, a technical term classification device according to the present invention will be described using embodiments. In the following embodiments, components and steps denoted by the same reference numerals are the same or equivalent, and repetitive description may be omitted.
(実施の形態1)
本発明の実施の形態1による専門用語分類装置について、図面を参照しながら説明する。本実施の形態による専門用語分類装置は、隣接語句を用いることにより、専門用語を分類するものである。
(Embodiment 1)
A technical term classification device according to
図1は、本実施の形態による専門用語分類装置1の構成を示すブロック図である。図1において、本実施の形態による専門用語分類装置1は、専門用語記憶部11と、隣接語句記憶部12と、文献情報記憶部13と、検索部14と、分類部15と、分類結果情報記憶部16と、出力部17とを備える。
FIG. 1 is a block diagram showing a configuration of a technical
専門用語記憶部11では、2以上の専門用語が記憶される。ここで、専門用語とは、特定の分野で用いられる専門的な用語であり、例えば、技術用語や、経済用語、政治用語、医学用語、法律用語等である。特定の分野とは、例えば、特定の研究分野や特定の技術分野、その他の専門分野である。この専門用語は、実際には「専門用語を示す情報」であるが、単に専門用語と呼ぶことにする。他の用語や語句についても同様である。 The technical term storage unit 11 stores two or more technical terms. Here, the technical terms are technical terms used in a specific field, such as technical terms, economic terms, political terms, medical terms, legal terms, and the like. The specific field is, for example, a specific research field, a specific technical field, or another specialized field. This technical term is actually “information indicating a technical term”, but is simply referred to as a technical term. The same applies to other terms and phrases.
この専門用語は、例えば、人手によって収集されたものであってもよく、技術用語辞典や、経済用語辞典等から収集されたものであってもよく、あるいは、複数の文献情報から機械的に取得されたものであってもよい。複数の文献情報から機械的に専門用語を取得する場合には、例えば、技術文献を形態素解析することにより、単名詞等を抽出し、各単名詞等について専門用語である可能性を示すスコア付けを行い、高いスコアを付与された単名詞等を専門用語として取得してもよい。ここで、スコアを付与する方法として、造語能力に基づくスコア付け、出現頻度に基づくスコア付け等の複数の種類が知られている。また、それ以外の方法を用いてもよい。専門用語を取得する方法については、下記の複数の文献等において開示されており、従来から知られているため、その詳細な説明を省略する。また、専門用語リストを作成するツールとして、TermExtractも公開されている(http://gensen.dl.itc.u−tokyo.ac.jp/termextract.html)。 This technical term may be collected manually, for example, from technical terminology dictionaries, economic terminology dictionaries, etc., or mechanically obtained from multiple literature information. It may be what was done. When acquiring technical terms mechanically from multiple pieces of literature information, for example, by extracting morphological analysis of technical literature, single nouns etc. are extracted, and scoring that indicates the possibility of being technical terms for each single noun etc. And a single noun with a high score may be acquired as a technical term. Here, as a method for assigning a score, a plurality of types such as scoring based on word-making ability and scoring based on appearance frequency are known. Further, other methods may be used. About the method of acquiring a technical term, since it is disclosed by the following some literature etc. and is conventionally known, the detailed description is abbreviate | omitted. Also, TermExtract has been released as a tool for creating a technical term list (http://gensen.dl.itc.u-tokyo.ac.jp/termextract.html).
文献:Hiroshi Nakagawa、「Automatic Term Recognition based on Statistics of Compound Nouns」、Terminology、Vol.6、No.2、p.195−210、2000
文献:大畑博一、中川裕志、「連接異なり語数による専門用語抽出」、情報処理学会研究報告、2000−NL−136、p.119−126
Literature: Hiroshi Nakagawa, “Automatic Term Recognition based on Statistics of Compound Nouns”, Terminology, Vol. 6, no. 2, p. 195-210, 2000
Literature: Hirokazu Ohata, Hiroshi Nakagawa, “Extraction of technical terms by the number of words connected differently”, Information Processing Society of Japan, 2000-NL-136, p. 119-126
文献:中川裕志、森辰則、湯本紘彰、「出現頻度と連接頻度に基づく専門用語抽出」、自然言語処理、Vol.10 No.1、p.27−45、2003年1月 References: Hiroshi Nakagawa, Masanori Mori, Yasuaki Yumoto, “Extraction of technical terms based on appearance frequency and connection frequency”, natural language processing, Vol. 10 No. 1, p. 27-45, January 2003
専門用語記憶部11は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。専門用語記憶部11に専門用語が記憶される過程は問わない。例えば、記録媒体を介して専門用語が専門用語記憶部11で記憶されるようになってもよく、通信回線等を介して送信された専門用語が専門用語記憶部11で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された専門用語が専門用語記憶部11で記憶されるようになってもよい。 The technical term storage unit 11 can be realized by a predetermined recording medium (for example, a semiconductor memory, a magnetic disk, an optical disk, etc.). The process in which technical terms are stored in the technical term storage unit 11 does not matter. For example, technical terms may be stored in the technical term storage unit 11 via a recording medium, and technical terms transmitted via a communication line or the like are stored in the technical term storage unit 11. Alternatively, the technical term input via the input device may be stored in the technical term storage unit 11.
隣接語句記憶部12では、隣接語句が記憶される。ここで、隣接語句とは、専門用語に隣接しうる語句である。隣接語句は、例えば、隣接語句の隣接した専門用語がさらに専門用語となりうる語句や、隣接語句の隣接した専門用語が動作を示す用語となりうる語句等である。後者の場合については、実施の形態2において説明する。なお、隣接語句が隣接した専門用語が、専門用語とならない場合、例えば、通常、使用されることのない不適切な用語となる場合もありうる。また、隣接語句自体は、通常、専門用語ではない。専門用語の先頭に隣接しうる隣接語句を接頭語と呼ぶ。専門用語の末尾に隣接しうる隣接語句を接尾語と呼ぶ。例えば、隣接語句「システム」や「装置」は、専門用語の末尾に隣接しうる接尾語である。例えば、隣接語句「日本語」や「英語」は、専門用語の先頭に隣接しうる接頭語である。隣接語句に接頭語と接尾語の両方が含まれる場合には、各隣接語句が接頭語と接尾語のいずれであるのかを示す情報が対応付けられていてもよい。なお、隣接語句は、複数のグループに分かれていてもよい。例えば、接尾語としての「システム」と「装置」は、両者共に、専門用語に隣接することによって、ある目的のためのハードウェアを構成する類似した接尾語であると考えられるため、それらは同一のグループに属してもよい。
In the adjacent
隣接語句は、例えば、人手によって収集されたものであってもよく、あるいは、複数の文献情報から機械的に取得されたものを人手で選定したものであってもよい。後者の場合には、例えば、文献情報から複合名詞を収集し、その末尾に頻出する名詞を収集することで、接尾語としての隣接語句の候補を得ることができる。一方、例えば、文献情報から複合名詞を収集し、その先頭に頻出する名詞を収集することで、接頭語としての隣接語句の候補を得ることができる。その候補から、人手によって有用なものを選定することにより、隣接語句のリストを得ることができる。なお、これ以外の方法によって隣接語句を収集してもよいことは言うまでもない。 The adjacent phrase may be collected manually, for example, or may be one manually selected from a plurality of document information. In the latter case, for example, by collecting compound nouns from document information and collecting nouns that frequently appear at the end of the compound nouns, candidates for adjacent phrases as suffixes can be obtained. On the other hand, for example, by collecting compound nouns from document information and collecting nouns that frequently appear at the top of the compound nouns, candidates for adjacent phrases as prefixes can be obtained. A list of adjacent words can be obtained by manually selecting useful ones from the candidates. It goes without saying that adjacent phrases may be collected by other methods.
隣接語句記憶部12は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。隣接語句記憶部12に隣接語句が記憶される過程は問わない。例えば、記録媒体を介して隣接語句が隣接語句記憶部12で記憶されるようになってもよく、通信回線等を介して送信された隣接語句が隣接語句記憶部12で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された隣接語句が隣接語句記憶部12で記憶されるようになってもよい。
The adjacent
文献情報記憶部13では、複数の文献情報が記憶される。ここで、文献情報とは、特定の分野における文献を示す情報である。特定の分野とは、例えば、特定の研究分野や特定の技術分野、その他の専門分野である。文献は、論文、特許書類(例えば、出願公開公報、特許公報等)、Webページ、官報、書籍等の何らかのまとまりを有する文書であればどのようなものでもよい。文献情報記憶部13で記憶される複数の文献情報に関する分野は、すべて同じであってもよく、あるいは、異なっていてもよい。後者の場合には、例えば、技術や、経済、政治、法律等の複数の分野の文献情報が文献情報記憶部13で記憶されることになる。一の文献情報には、対応する一の文献の情報(データ)が含まれる。ただし、一の文献情報には、所定の範囲の情報が含まれているだけであってもよい。例えば、学術論文の文献情報である場合に、その文献情報は、その学術論文の要約のみを有する情報であってもよい。文献情報は、テキストファイルであってもよく、あるいは、ワープロソフト等の独自形式のファイルであってもよい。
The document
なお、本実施の形態では、専門用語分類装置1が文献情報記憶部13を備える構成について説明するが、専門用語分類装置1は、文献情報記憶部13を備えていなくてもよい。専門用語分類装置1が文献情報記憶部13を備えていない場合であっても、専門用語分類装置1は、図示しないサーバや、他の装置等において保持されている文献情報にアクセス可能であるものとする。
In the present embodiment, a configuration in which the technical
また、文献情報記憶部13は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。文献情報記憶部13に複数の文献情報が記憶される過程は問わない。例えば、記録媒体を介して複数の文献情報が文献情報記憶部13で記憶されるようになってもよく、通信回線等を介して送信された複数の文献情報が文献情報記憶部13で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された複数の文献情報が文献情報記憶部13で記憶されるようになってもよい。
The document
検索部14は、専門用語記憶部11で記憶されている専門用語に、隣接語句記憶部12で記憶されている隣接語句を隣接させた検索用語を構成する。検索部14は、隣接語句が接頭語である場合には、隣接語句、専門用語の順で両者を隣接させることにより、検索用語を構成する。また、検索部14は、隣接語句が接尾語である場合には、専門用語、隣接語句の順で両者を隣接させることにより、検索用語を構成する。そして、検索部14は、文献情報記憶部13で記憶されている複数の文献情報において、その構成した検索用語を検索する。
The
なお、本実施の形態では、検索部14が文献情報記憶部13で記憶されている複数の文献情報において、直接、構成した検索用語の検索を行う場合について説明するが、検索部14は、他の装置や、他の構成要素に検索の指示を行うものであってもよい。特に、専門用語分類装置1が文献情報記憶部13を備えない場合には、検索部14が行う検索処理は、文献情報記憶部13を備える装置に対して検索用語による検索を指示する情報を送信し、それに応じて返信されてきた検索結果を受信する処理であってもよい。
In the present embodiment, a case will be described in which the
分類部15は、検索部14による検索結果に応じて、検索用語に含まれる専門用語を分類する。分類部15は、検索部14の検索した検索用語が文献情報に含まれていた場合に、その検索用語を構成する専門用語を、その検索用語を構成する隣接語句に応じて分類してもよい。隣接語句に応じて分類するとは、例えば、隣接語句ごとに分類することであってもよく、隣接語句のグループごとに分類することであってもよい。なお、専門用語を分類するとは、分類ごとに区別されるように、後述する分類結果情報に専門用語を追加することである。
The
また、分類部15は、検索部14の検索した検索用語が文献情報に所定の回数以上含まれていた場合に、その検索用語を構成する専門用語の分類を行ってもよい。例えば、この所定の回数を2以上の適切な値に設定することで、ヒット数の少ない検索用語に含まれる専門用語を分類しないようにすることができる。例えば、文献情報記憶部13で記憶されている少数の文献情報において、不適切な記載が存在し、そのために本来であれば検索でヒットしない検索用語がヒットしてしまう場合もありうる。ただし、そのような不適切な記載が多量に存在する可能性は低いと考えられるため、その場合のヒット数は少ないと考えられる。したがって、ヒット数の少ない検索用語に含まれる専門用語を分類しないようにすることで、不適切な検索結果に応じた分類を回避することができる。なお、そのしきい値となる所定の回数は、例えば、文献情報記憶部13で記憶されている文献情報の規模にも依存するが、一般に、1回、や2回、3回、5回、10回程度の小さい数であることが好適である。また、所定の回数に変えて、所定の割合を用いてもよい。例えば、分類部15は、検索部14の検索した検索用語が文献情報に所定の割合以上含まれていた場合に、その検索用語を構成する専門用語の分類を行ってもよい。
Moreover, the classification |
また、隣接語句が複数のグループに分かれている場合に、分類部15は、検索部14の検索した検索用語が文献情報に含まれていたときに、その検索用語を構成する専門用語を、その検索用語を構成する隣接語句のグループに応じて分類してもよい。例えば、分類部15は、隣接語句「システム」「装置」が同一のグループに属する場合に、ある検索用語「形態素解析システム」が文献情報に含まれていたときに、その検索用語を構成する専門用語「形態素解析」を、隣接語句「システム」「装置」のグループに対応付けて分類してもよい。
In addition, when the adjacent terms are divided into a plurality of groups, the
また、分類部15は、検索部14の検索した検索用語の検索結果数(ヒット数)に対応付けて、専門用語の分類を行ってもよい。この場合には、検索結果数が後述する分類結果情報に含まれることになる。その分類結果情報に含まれる検索結果数は、その後の分類結果情報に関する解析等において用いることができる。例えば、分類結果情報を、検索結果数の降順にソートして、検索結果数の上位のものだけを選択することによって、より確からしい分類結果情報を取得することもできうる。
Further, the
分類結果情報記憶部16では、分類結果情報が記憶される。ここで、分類結果情報とは、分類部15によって分類された結果を示す情報である。この分類結果情報では、専門用語が分類ごとに区別されて含まれることになる。各分類には、その分類を示す分類名が付与されていてもよく、そうでなくてもよい。分類名は、例えば、その分類に含まれる専門用語の検索で用いられた隣接語句であってもよく、その隣接語句のグループ名であってもよく、あるいは、その他のものであってもよい。また、分類結果情報に含まれる専門用語には、前述のように検索結果数が対応付けられていてもよい。分類結果情報記憶部16は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。
In the classification result
出力部17は、分類結果情報記憶部16で記憶されている分類結果情報を出力する。この出力がなされることにより、例えば、ユーザが分類結果を知ることができるようになったり、他の装置等で分類結果を用いることができるようになったりする。ここで、この出力は、例えば、表示デバイス(例えば、CRTや液晶ディスプレイなど)への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、スピーカによる音声出力でもよく、記録媒体への蓄積でもよい。また、この出力は、例えば、関数の呼び出しに対して分類結果情報を与える処理であってもよく、メッセージパッシングにおいて、次処理のオブジェクトに分類結果情報を渡すこと(例えば、SendMessage等を用いてもよい)であってもよく、他の構成要素が用いる共有メモリに分類結果情報を書き込むことであってもよい。
The
なお、出力部17は、出力を行うデバイス(例えば、表示デバイスやプリンタなど)を含んでもよく、あるいは含まなくてもよい。また、出力部17は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
The
なお、専門用語記憶部11、隣接語句記憶部12、文献情報記憶部13、分類結果情報記憶部16での記憶は、RAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。また、専門用語記憶部11と、隣接語句記憶部12と、文献情報記憶部13と、分類結果情報記憶部16とは、同一の記録媒体によって実現されてもよく、別々の記録媒体によって実現されてもよい。前者の場合には、例えば、専門用語を記憶している領域が専門用語記憶部11となり、隣接語句を記憶している領域が隣接語句記憶部12となる。
次に、本実施の形態による専門用語分類装置1の動作について、図2のフローチャートを用いて説明する。
Note that the storage in the technical term storage unit 11, the adjacent
Next, the operation of the technical
(ステップS101)分類部15は、分類の処理を開始するかどうか判断する。そして、開始する場合には、ステップS102に進み、そうでない場合には、開始すると判断するまでステップS101の処理を繰り返す。例えば、分類を開始する指示を専門用語分類装置1が受け付けた場合に、分類部15は、分類を開始すると判断してもよく、その他のタイミングで、分類を開始すると判断してもよい。なお、この判断処理は、分類部15以外の構成要素が行ってもよい。
(Step S101) The
(ステップS102)検索部14は、カウンタiを1に設定する。
(ステップS103)検索部14は、カウンタjを1に設定する。
(Step S102) The
(Step S103) The
(ステップS104)検索部14は、i番目の専門用語を専門用語記憶部11から読み出す。
(ステップS105)検索部14は、j番目の隣接語句を隣接語句記憶部12から読み出す。
(Step S <b> 104) The
(Step S <b> 105) The
(ステップS106)検索部14は、ステップS104で読み出した専門用語に、ステップS105で読み出した隣接語句を隣接させることによって、検索用語を構成する。なお、隣接語句が接頭語である場合には、検索部14は、その隣接語句を専門用語の先頭に隣接させ、隣接語句が接尾語である場合には、検索部14は、その隣接語句を専門用語の末尾に隣接させる。
(ステップS107)検索部14は、文献情報記憶部13で記憶されている複数の文献情報において、その検索用語を検索する。
(Step S106) The
(Step S <b> 107) The
(ステップS108)検索部14は、その検索用語の検索の結果、所定回数以上のヒットがあったかどうか判断する。そして、所定回数以上のヒットがあった場合には、ステップS109に進み、そうでない場合には、ステップS110に進む。なお、この所定回数を示す情報が図示しない記録媒体において記憶されており、検索部14は、その情報を読み出すことによって判断処理を行ってもよい。また、この所定回数を「1」に設定することにより、少なくともヒットのあった検索用語に含まれる専門用語については、分類が行われるようにすることができる。したがって、この所定回数は、1または2以上の整数である。
(Step S108) The
(ステップS109)分類部15は、検索部14が検索した検索用語に含まれる専門用語を分類する。具体的には、分類部15は、検索部14が検索した検索用語に含まれる専門用語を、分類結果情報記憶部16で記憶されている分類結果情報に追加する。分類部15は、例えば、その検索用語に含まれる専門用語を、その検索用語に含まれる隣接語句に対応付けて分類結果情報記憶部16で記憶されている分類結果情報に追加してもよい。また、分類部15は、その検索用語に含まれる専門用語を、検索結果数に対応付けて分類結果情報に追加してもよい。
(ステップS110)検索部14は、カウンタjを1だけインクリメントする。
(Step S109) The
(Step S110) The
(ステップS111)検索部14は、隣接語句記憶部12にj番目の隣接語句が存在するかどうか判断する。そして、存在する場合には、ステップS105に戻り、そうでない場合には、ステップS112に進む。
(ステップS112)検索部14は、カウンタiを1だけインクリメントする。
(Step S <b> 111) The
(Step S112) The
(ステップS113)検索部14は、専門用語記憶部11にi番目の専門用語が存在するかどうか判断する。そして、存在する場合には、ステップS103に戻り、そうでない場合には、ステップS114に進む。
(ステップS114)出力部17は、分類結果情報記憶部16で記憶されている分類結果情報を出力する。そして、ステップS101に戻る。
(Step S113) The
(Step S114) The
なお、図2のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。また、図2のフローチャートでは、専門用語記憶部11で記憶されているすべての専門用語について処理を行う場合について説明したが、専門用語記憶部11で記憶されている専門用語のうち、一部の専門用語について処理を行ってもよい。 In the flowchart of FIG. 2, the process is terminated by powering off or a process termination interrupt. Further, in the flowchart of FIG. 2, the case has been described in which processing is performed for all technical terms stored in the technical term storage unit 11, but some technical terms stored in the technical term storage unit 11 Processing may be performed on technical terms.
また、図2のフローチャートでは、隣接語句記憶部12で記憶されているすべての隣接語句につて処理を行う場合について説明したが、隣接語句記憶部12で記憶されている隣接語句のうち、一部の隣接語句について処理を行ってもよい。
Further, in the flowchart of FIG. 2, the case has been described in which processing is performed on all the adjacent phrases stored in the adjacent
また、図2のフローチャートでは、すべての専門用語について処理が終了した後に、分類結果情報を出力する場合について説明したが、分類結果情報を出力するタイミングは問わない。例えば、ユーザからの指示に応じて、分類結果情報を出力してもよい。 In the flowchart of FIG. 2, the case where the classification result information is output after the processing for all the technical terms has been described has been described, but the timing for outputting the classification result information is not limited. For example, classification result information may be output in response to an instruction from the user.
次に、本実施の形態による専門用語分類装置1の動作について、具体例を用いて説明する。
この具体例において、専門用語分類装置1は、パーソナル・コンピュータであるとする。また、この具体例において、専門用語記憶部11では、図3で示される専門用語が記憶されているものとする。また、この具体例において、隣接語句記憶部12では、図4で示される隣接語句が記憶されているものとする。なお、この隣接語句は、すべて接尾語であるとする。また、図2のフローチャートにおけるステップS108の処理で用いる所定の回数として、「10回」が設定されているものとする。
Next, the operation of the technical
In this specific example, it is assumed that the technical
まず、ユーザがマウスやキーボード等を操作することにより、分類を開始する指示を専門用語分類装置1に入力したとする。すると、その指示を専門用語分類装置1が受け付け、分類部15は、分類の処理を開始すると判断する(ステップS101)。すると、検索部14は、専門用語記憶部11で記憶されている1番目の専門用語「形態素」を読み出すと共に、隣接語句記憶部12で記憶されている1番目の隣接語句「システム」を読み出す(ステップS102〜S105)。そして、検索部14は、専門用語「形態素」に、接尾語としての隣接語句「システム」を隣接させた検索用語「形態素システム」を構成し(ステップS106)、文献情報記憶部13で記憶されている文献において、その検索用語の検索を行う(ステップS107)。この場合には、1件もヒットしなかったとすると、検索部14は、所定回数(=10回)未満のヒットであると判断し(ステップS108)、次の隣接語句「装置」の読み出しと、新たな検索用語「形態素装置」の構成とを行う(ステップS110,S111,S105,S106)。このようにして、順次、検索用語の構成と、検索とが行われていく。
First, it is assumed that the user inputs an instruction to start classification into the technical
専門用語「形態素」について、すべての隣接語句を隣接させた検索が終了すると、検索部14は、次の隣接語句が存在しないと判断し(ステップS110,S111)、2番目の専門用語「機械翻訳」についての処理を行う(ステップS112,S113,S104)。検索部14は、前述の説明と同様に、専門用語「機械翻訳」と、隣接語句「システム」とを読み出し(ステップS104,S105)、それらを用いて検索用語「機械翻訳システム」を構成する(ステップS106)。そして、検索部14は、文献情報において検索用語「機械翻訳システム」の検索を行う(ステップS107)。この場合には、50,000件がヒットしたとする。すると、検索部14は、所定回数(=10回)以上のヒットであると判断し(ステップS108)、その検索用語に含まれる専門用語「機械翻訳」を、隣接語句「システム」に対応付けて分類する(ステップS109)。具体的には、分類部15は、専門用語「機械翻訳」を、隣接語句「システム」に対応付けて分類結果情報に追加する。また、その検索結果数(=50,000件)も、その分類結果情報に追加する。図5で示される分類結果情報の1番目のレコードは、そのようにして追加されたものである。このような処理が、すべての専門用語について実行される。
For the technical term “morpheme”, when the search in which all adjacent words are adjacent is completed, the
すべての専門用語に対する処理が終了したときに、分類結果情報記憶部16で記憶されている分類結果情報が図5で示されるようになっていたとする。すると、出力部17は、その分類結果情報を読み出して、図示しないディスプレイに表示する(ステップS114)。その表示によって、ユーザは、各専門用語がどのように分類されたのかについて知ることができうる。
なお、この具体例では、隣接語句が接尾語である場合について説明したが、隣接語句が接頭語である場合にも、同様にして専門用語の分類を行うことができる。
Assume that the classification result information stored in the classification result
In this specific example, the case where the adjacent word / phrase is a suffix has been described. However, even when the adjacent word / phrase is a prefix, the technical terms can be classified in the same manner.
以上のように、本実施の形態による専門用語分類装置1によれば、隣接語句を用いることにより、専門用語を分類することができる。したがって、その分類結果情報を用いることによって、例えば、種々の言語処理の結果を分類することなどが可能となる。また、その専門用語の分類を自動的に行うことによって、人手で分類を行う場合のように多大な時間や労力を必要とすることもなく、また、専門分野に精通した人を確保する必要もないというメリットもある。
As described above, according to the technical
(実施の形態2)
本発明の実施の形態2による専門用語分類装置について、図面を参照しながら説明する。本実施の形態による専門用語分類装置は、専門用語の末尾に隣接することによって動作を示す用語を構成しうる接尾語を隣接語句として用いることによって、専門用語の分類を行うものである。
(Embodiment 2)
A technical term classification device according to
図6は、本実施の形態による専門用語分類装置2の構成を示すブロック図である。図6において、本実施の形態による専門用語分類装置2は、専門用語記憶部11と、隣接語句記憶部12と、文献情報記憶部13と、検索部14と、分類部21と、分類結果情報記憶部16と、出力部17とを備える。分類部21以外の構成は、隣接語句記憶部12で記憶されている隣接語句が異なる以外、実施の形態1と同様であり、その説明を省略する。隣接語句記憶部12では、前述のように、専門用語の末尾に隣接することにより、動作を示す用語を構成しうる接尾語としての隣接語句が記憶されるものとする。具体的には、この隣接語句は「する」や「をする」である。また、「動作を示す用語」とは、例えば、サ変動詞や、名詞の後に「をする」が隣接することによって動作を示すことになる用語などである。
FIG. 6 is a block diagram showing a configuration of the technical
分類部21は、検索部14による検索結果に応じて、検索用語に含まれる専門用語を分類するものであり、取得手段31と、特定手段32と、蓄積手段33と、分類手段34とを備える。
The classification unit 21 classifies the technical terms included in the search terms according to the search result by the
取得手段31は、検索用語の含まれる1以上の文を文献情報記憶部13で記憶されている文献情報から取得する。取得手段31は、例えば、検索用語の含まれるすべての文を取得してもよく、あるいは、検索用語の含まれる文のうち、一部の文を取得してもよい。なお、図6では、検索部14と、取得手段31とを別々に記載しているが、検索部14による検索と、取得手段31による取得とは、一体としてなされてもよい。すなわち、検索用語の検索と、その検索用語を含む文の取得とが一つの処理として実行されてもよい。
The
特定手段32は、取得手段31の取得した1以上の文において、検索用語に対する入力語及び/または出力語を特定する。すなわち、特定手段32は、入力語のみを特定してもよく、出力語のみを特定してもよく、入力語と出力語とを特定してもよい。ここで、入力語とは、検索用語に対応する処理の対象となる情報である。また、出力語とは、検索用語に対応する処理の結果となる情報である。例えば、検索用語が「機械翻訳する」であり、取得された文が「日本語を英語に機械翻訳する」の場合には、特定手段32は、入力語として「日本語」を特定し、出力語として「英語」を特定する。入力語等を特定するとは、その入力語等を取得して図示しない記録媒体等で保持することであってもよく、その入力語等の位置を示す情報(例えば、ポインタなど)を図示しない記録媒体等で保持することであってもよく、その入力語等に対応付けてフラグ等を設定することであってもよく、結果として入力語や出力語を特定できるのであれば、その特定の方法は問わない。
The specifying
ここで、入力語、出力語を検出する方法について説明する。入力語は、ヲ格や、カラ格に対応していることが多いと考えられる。また、出力語は、ニ格や、マデ格、ヘ格に対応していることが多いと考えられる。具体的には、以下のような文が考えられる。各例文において、「機械翻訳する」が検索用語であり、「日本語」が入力語であり、「英語」が出力語である。ただし、例5には、出力語は存在せず、例6には、入力語は存在しない。 Here, a method for detecting input words and output words will be described. It is thought that the input words often correspond to wo case and color case. Also, the output words are likely to correspond to the second case, the made case, and the first case. Specifically, the following sentence can be considered. In each example sentence, “Machine translation” is a search term, “Japanese” is an input word, and “English” is an output word. However, Example 5 has no output word, and Example 6 has no input word.
例1:日本語を英語に機械翻訳する。
例2:日本語から英語に機械翻訳する。
例3:日本語を英語へ機械翻訳する。
例4:日本語から英語まで機械翻訳する。
例5:日本語を機械翻訳する。
例6:英語に機械翻訳する。
Example 1: Machine translation from Japanese to English.
Example 2: Machine translation from Japanese to English.
Example 3: Machine translation from Japanese to English.
Example 4: Machine translation from Japanese to English.
Example 5: Machine translation of Japanese.
Example 6: Machine translation into English.
このように、特定手段32は、取得手段31の取得した文において、ヲ格や、カラ格を検出することによって、入力語を検出することができる。また、特定手段32は、取得手段31の取得した文において、ニ格や、マデ格、ヘ格を検出することによって、出力語を検出することができる。ヲ格等の検出は、取得手段31の取得した文において構文解析を行うことにより、検索用語に係るヲ格等を検出することによって行うことができる。なお、これらの処理はすでに公知であって、詳細な説明を省略する。
As described above, the specifying
なお、前述以外の方法を用いて入力語等の検出を行ってもよい。例えば、検索用語が隣接語句「をする」を用いて構成された場合に、その検索用語に係る助詞「の」の前の単名詞、あるいは複合名詞を入力語として検出してもよい。例えば、取得手段31が「日本語の機械翻訳をする」を取得した場合に、検索用語「機械翻訳をする」に係る助詞「の」の前の名詞「日本語」を入力語として検出してもよい。このように、入力語や出力語を適切に検出できるのであれば、その検出方法は、上記の説明に限定されるものではない。
In addition, you may detect an input word etc. using methods other than the above-mentioned. For example, when the search term is configured using an adjacent phrase “do”, a single noun or compound noun before the particle “no” related to the search term may be detected as an input word. For example, when the
また、特定手段32は、どの格が入力語に対応し、どの格が出力語に対応するのかなどの情報を図示しない記録媒体において保持しており、その情報を用いて入力語等の特定を行ってもよい。 The specifying means 32 holds information such as which case corresponds to the input word and which case corresponds to the output word in a recording medium (not shown), and specifies the input word or the like using the information. You may go.
蓄積手段33は、特定手段32の特定した入力語及び/または出力語を、検索部14の検索した検索用語を構成する専門用語に対応付けて所定の記録媒体に蓄積する。この記録媒体は、例えば、半導体メモリや、光ディスク、磁気ディスク等であり、蓄積手段33が有していてもよく、あるいは蓄積手段33の外部に存在してもよい。また、この記録媒体は、入力語及び/または出力語を一時的に記憶するものであってもよく、そうでなくてもよい。
The
分類手段34は、蓄積手段33の蓄積した入力語及び/または出力語に応じて、その入力語及び/または出力語に対応する専門用語を分類する。分類手段34は、例えば、蓄積手段33の蓄積した入力語及び/または出力語の共通する専門用語を、同じ分類に分類してもよく、蓄積手段33の蓄積した入力語及び/または出力語の概念が共通する専門用語を、同じ分類に分類してもよい。2個の語句の概念が共通するとは、その2個の語句の意味内容が似ていることである。より具体的には、その2個の語句が、例えば、概念体系辞書等において同一の概念のグループに属することであってもよく、上位下位シソーラスにおいて同じ上位語に対応した下位語であることであってもよい。概念体系辞書や上位下位シソーラス等を用いる場合には、それらの辞書やシソーラス等は、分類手段34がアクセス可能な記録媒体において記憶されているものとする。その記録媒体は、分類手段34が有していてもよく、あるいは、そうでなくてもよい。本実施の形態では、蓄積手段33の蓄積した入力語及び/または出力語の共通する専門用語が同じ分類となるように、専門用語の分類を行う場合について説明する。なお、専門用語を分類するとは、分類ごとに区別されるように、分類結果情報に専門用語を追加することである。
The classifying
次に、本実施の形態による専門用語分類装置2の動作について、図7のフローチャートを用いて説明する。なお、図7のフローチャートにおいて、ステップS201,S202以外の処理は、隣接語句記憶部12で記憶されている隣接語句が異なる以外、図2のフローチャートと同様であり、その説明を省略する。
Next, operation | movement of the technical
(ステップS201)取得手段31、特定手段32、蓄積手段33は、検索用語の含まれる文の取得、入力語及び/または出力語の特定、その特定された入力語及び/または出力語の蓄積等の処理を行う。この処理の詳細については、図8のフローチャートを用いて後述する。
(Step S201) The
(ステップS202)分類手段34は、蓄積手段33の蓄積した入力語及び/または出力語に応じて、その入力語及び/または出力語に対応する専門用語を分類する。この処理の詳細については、図9のフローチャートを用いて後述する。 (Step S202) The classification means 34 classifies technical terms corresponding to the input words and / or output words in accordance with the input words and / or output words stored in the storage means 33. Details of this processing will be described later with reference to the flowchart of FIG.
図8は、図7のフローチャートにおけるステップS201の処理の詳細を示すフローチャートである。
(ステップS301)取得手段31は、カウンタkを1に設定する。
(ステップS302)取得手段31は、検索部14による検索結果のうち、k番目の検索結果に対応する文を、文献情報記憶部13から取得する。
FIG. 8 is a flowchart showing details of the process in step S201 in the flowchart of FIG.
(Step S301) The
(Step S <b> 302) The
(ステップS303)特定手段32は、取得手段31が取得した文において、動作を示す用語である検索用語に対応する入力語及び/または出力語を特定する。この特定は、前述のように、検索用語に対応する格を特定することなどによってなされる。
(Step S303) The specifying
(ステップS304)蓄積手段33は、検索用語に含まれる専門用語に対応付けて、ステップS303で特定された入力語及び/または出力語が蓄積されているかどうか判断する。そして、蓄積されている場合には、ステップS306に進み、そうでない場合には、ステップS305に進む。
(Step S304) The
(ステップS305)蓄積手段33は、特定手段32が特定した入力語及び/または出力語を、検索用語に含まれる専門用語に対応付けて所定の記録媒体に蓄積する。
(ステップS306)取得手段31は、カウンタkを1だけインクリメントする。
(Step S305) The
(Step S306) The
(ステップS307)取得手段31は、k番目の検索結果が存在するかどうか判断する。そして、存在する場合には、ステップS302に戻り、そうでない場合には、図7のフローチャートに戻る。
(Step S307) The
なお、図7、図8のフローチャートでは、検索部14による検索の処理と、取得手段31による取得の処理とが独立して実行される場合について説明したが、前述のように、検索を行いながら、取得を行ってもよい。すなわち、検索用語の検索において、検索用語が1回目にヒットした時点で、その検索用語の含まれる文の取得を行い、検索用語が2回目にヒットした時点で、その検索用語の含まれる文の取得を行うという処理を繰り返して実行してもよい。
In the flowcharts of FIGS. 7 and 8, the case where the search process by the
また、図8のフローチャートでは、すべての検索結果に対応する文の取得を行う場合について説明したが、そうでなくてもよい。すなわち、一部の検索結果に対応する文の取得を行ってもよい。例えば、検索結果数が膨大な場合(例えば、数十万件等)である場合に、すべての文の取得と入力語等の特定を行うと、処理量が膨大になりうるが、そのような場合には、ランダムに選択した一部の検索結果のみを用いるようにしてもよい。
また、ステップS303において、入力語及び出力語の両方を特定することができなかった場合には、ステップS306に飛んでもよい。
Further, in the flowchart of FIG. 8, a case has been described in which sentences corresponding to all search results are acquired, but this need not be the case. That is, you may acquire the sentence corresponding to a part of search results. For example, when the number of search results is enormous (for example, hundreds of thousands), if all sentences are acquired and input words are specified, the amount of processing can be enormous. In some cases, only a part of search results selected at random may be used.
In step S303, if both the input word and the output word cannot be specified, the process may jump to step S306.
図9は、図7のフローチャートにおけるステップS202の処理の詳細を示すフローチャートである。なお、図9のフローチャートを用いて説明する分類の処理は、一例であって、これ以外の処理を行ってもよいことは言うまでもない。図9のフローチャートでは、入力語及び/または出力語の共通する専門用語を、同じ分類に分類する場合について説明する。 FIG. 9 is a flowchart showing details of the process in step S202 in the flowchart of FIG. Note that the classification process described with reference to the flowchart of FIG. 9 is an example, and it goes without saying that other processes may be performed. In the flowchart of FIG. 9, a case will be described in which technical terms common to input words and / or output words are classified into the same classification.
(ステップS401)分類手段34は、蓄積手段33が蓄積した結果から、入力語を重複のないように抽出する。入力語のないもの、すなわち、出力語だけのものが存在する場合には、入力語のないこと、すなわち、入力語がヌル(null)であることを抽出するものとする。例えば、分類手段34は、蓄積手段33が入力語等を蓄積した記録媒体から、すべての入力語を取得し、その入力語をソートし、重複している入力語を削除することによって、この入力語の抽出を行うことができる。なお、この抽出された入力語は、図示しない記録媒体において一時的に記憶されていてもよい。
(Step S401) The classification means 34 extracts the input words from the results accumulated by the accumulation means 33 so as not to overlap. If there is no input word, that is, only an output word, it is extracted that there is no input word, that is, the input word is null. For example, the
(ステップS402)分類手段34は、ステップS401と同様にして、出力語についても、蓄積手段33が蓄積した結果から、出力語を重複のないように抽出する。なお、この抽出された出力語は、図示しない記録媒体において一時的に記憶されていてもよい。 (Step S402) The classification means 34 extracts the output words from the results accumulated by the accumulation means 33 so that there are no duplicates as in step S401. The extracted output word may be temporarily stored in a recording medium (not shown).
(ステップS403)分類手段34は、カウンタmを1に設定する。
(ステップS404)分類手段34は、カウンタnを1に設定する。
(Step S403) The
(Step S404) The
(ステップS405)分類手段34は、ステップS401で抽出したm番目の入力語と、ステップS402で抽出されたn番目の出力語に対応する専門用語が蓄積手段33によって蓄積されているかどうかを検索する。具体的には、蓄積手段33が蓄積した結果において、m番目の入力語と、n番目の出力語との組合せを検索する。
(Step S405) The
(ステップS406)分類手段34は、その検索の結果、m番目の入力語と、n番目の出力語との組合せが存在する場合には、ステップS407に進み、そうでない場合には、ステップS408に進む。なお、この検索で所定回数以上ヒットしたかどうかを判断し、所定回数以上ヒットした場合には、ステップS407に進み、そうでない場合には、ステップS408に進むようにしてもよい。例えば、所定回数を2回に設定することにより、分類に1個の専門用語のみが含まれることを回避することができる。
(Step S406) As a result of the search, the
(ステップS407)分類手段34は、検索されたm番目の入力語と、n番目の出力語との組合せに対応する専門用語を、そのm番目の入力語と、n番目の出力語に対応付けて分類する。具体的には、その専門用語を、m番目の入力語と、n番目の出力語に対応付けて分類結果情報に蓄積する。複数のm番目の入力語と、n番目の出力語との組合せがヒットした場合には、その各組合せにそれぞれ対応する複数の専門用語が同じ分類となるように、分類の処理を行う。
(Step S407) The
(ステップS408)分類手段34は、カウンタnを1だけインクリメントする。
(ステップS409)分類手段34は、ステップS402で抽出された出力語に、n番目の出力語が存在するかどうか判断する。そして、存在する場合には、ステップS405に戻り、そうでない場合には、ステップS410に進む。
(Step S408) The
(Step S409) The
(ステップS410)分類手段34は、カウンタmを1だけインクリメントする。
(ステップS411)分類手段34は、ステップS401で抽出された入力語に、m番目の入力語が存在するかどうか判断する。そして、存在する場合には、ステップS404に戻り、そうでない場合には、図7のフローチャートに戻る。
(Step S410) The
(Step S411) The
なお、図9のフローチャートにおいて、入力語、出力語としてヌルも抽出するため、入力語がヌルであり、出力語がヌルでない組合せや、入力語がヌルでなく、出力語がヌルである組合せも存在することになる。それらの場合は、それぞれ特定結果が出力語だけの場合、特定結果が入力語だけの場合に対応することになる。なお、入力語も出力語もヌルである場合は、実質的に意味がないため、分類手段34は、ステップS405において、入力語も出力語もヌルである組合せについては検索を行わなくてもよい。 In the flowchart of FIG. 9, nulls are also extracted as input words and output words. Therefore, combinations in which the input word is null and the output word is not null, and combinations in which the input word is not null and the output word is null. Will exist. In these cases, the specific results are only output words, and the specific results are only input words. If both the input word and the output word are null, the classification means 34 does not need to search for a combination in which both the input word and the output word are null in step S405. .
次に、本実施の形態による専門用語分類装置2の動作について、具体例を用いて説明する。
この具体例でも、実施の形態1の具体例と同様に、専門用語分類装置2は、パーソナル・コンピュータであるとする。また、専門用語記憶部11では、図3で示される専門用語が記憶されているものとする。なお、この具体例では、隣接語句記憶部12では、図10で示される、接尾語としての隣接語句が記憶されているものとする。
Next, the operation of the technical
Also in this specific example, similarly to the specific example of the first embodiment, the technical
なお、分類の処理が開始され、検索がなされるまでの処理(ステップS101〜S108)は、隣接語句が異なる以外、実施の形態1の具体例と同様であり、その説明を省略する。 Note that the processes (steps S101 to S108) from the start of the classification process to the search are the same as those in the specific example of the first embodiment except that the adjacent words are different, and the description thereof is omitted.
次に、検索用語の含まれる文を取得し、入力語等を特定する処理(ステップS201)について説明する。検索部14が専門用語「機械翻訳」と、隣接語句「する」とから検索用語「機械翻訳する」を構成し、検索した結果、所定回数以上のヒットがあったとする。すると、取得手段31は、1個目の検索結果に対応する文を文献情報記憶部13から取得する(ステップS301,S302)。その文は、「まず始めに、日本語を英語に機械翻訳する。」であったとする。すると、特定手段32は、検索用語「機械翻訳する」に対応するヲ格である「日本語」を入力語として特定し、検索用語「機械翻訳する」に対応知るニ格である「英語」を出力語として特定する(ステップS303)。蓄積手段33は、その入力語「日本語」、出力語「英語」、検索用語に含まれる専門用語「機械翻訳」の組合せがすでに蓄積されているかどうか判断する(ステップS304)。この場合には、蓄積されていなかったとすると、蓄積手段33は、その入力語と出力語とを、専門用語「機械翻訳」に対応付けて蓄積する(ステップS305)。図11の1番目のレコードは、そのようにして蓄積された入力語と、出力語と、専門用語との対応を示す。
Next, a process (step S201) for acquiring a sentence including a search term and specifying an input word or the like will be described. Assume that the
その後、取得手段31は、次の検索結果に対応する文を文献情報記憶部13から取得する(ステップS306,S307,S302)。その文は、「新開発のアルゴリズムを用いて、日本語を英語に機械翻訳する。」であったとする。すると、前述の説明と同様にして、特定手段32は、入力語「日本語」と、出力語「英語」とを特定する(ステップS303)。この場合には、入力語「日本語」、出力語「英語」、専門用語「機械翻訳」の組合せが蓄積されているため、その蓄積の処理が行われない(ステップS304)。このようにして、順次、検索結果の文の取得と、入力語及び/または出力語の特定と、その蓄積とが行われていくことになる。その結果、図11で示されるように、入力語、出力語、専門用語が対応付けられて蓄積されたとする。その処理が、各検索用語の検索結果に対してなされていく。
Thereafter, the
そして、すべての検索用語について、入力語等を特定し、蓄積する処理が終了すると、分類手段34は、専門用語を分類する処理を開始する(ステップS202)。
When the process of specifying and storing input words for all search terms is completed, the
まず、分類手段34は、図11で示される蓄積結果から、すべての入力語を取得し、ソートする。そして、分類手段34は、そのソート結果において、2個以上存在する同じ入力語を、1個だけを残して削除する。このようにして、分類手段34は、入力語「日本語」「英語」等を重複なく抽出することができる(ステップS401)。その抽出された入力語は、図示しない記録媒体において一時的に記憶される。 First, the classification means 34 acquires and sorts all input words from the accumulation result shown in FIG. Then, the classification means 34 deletes the same input word that exists two or more in the sorting result, leaving only one. In this way, the classification means 34 can extract the input words “Japanese”, “English”, etc. without duplication (step S401). The extracted input word is temporarily stored in a recording medium (not shown).
同様にして、分類手段34は、図11で示される蓄積結果から、出力語「英語」「日本語」「中国語」等を重複なく抽出する(ステップS402)。その抽出された出力語は、図示しない記録媒体において一時的に記憶される。
Similarly, the
その後、分類手段34は、1番目の入力語「日本語」と、1番目の出力語「英語」とを図示しない記録媒体から読み出し、それらの入力語と出力語とを有するレコードを、図11で示される蓄積結果で検索する(ステップS403〜S405)。ここでは、複数のレコードがヒットしたとする。すると、分類手段34は、検索結果があると判断し(ステップS406)、検索された各レコードを読み出して、分類結果情報に蓄積する(ステップS407)。その蓄積において、入力語と出力語とは、分類の名称として蓄積される。図12で示される、分類「日本語/英語」に対応するレコードは、そのようにして蓄積されたものである。このような処理が、各入力語と、各出力語との組合せに対してなされることにより、分類結果情報に順次、新たな分類が追加されていくことになる。そして、最終的に、図12で示されるような分類結果情報が分類結果情報記憶部16において記憶されるようになる。その分類結果情報が出力される処理は、実施の形態1の具体例と同様である。
After that, the
なお、図9のフローチャートによって分類の処理を行う場合について説明したが、前述のように、これは一例であって、この分類方法に限定されるものではない。例えば、蓄積結果を入力語でソートし、同一の入力語の範囲内で、出力語でソートして、入力語と出力語が同じである専門用語をまとめることによって分類を行うようにしてもよい。 Although the case where the classification process is performed is described with reference to the flowchart of FIG. 9, as described above, this is an example, and the present invention is not limited to this classification method. For example, the accumulation results may be sorted by input words, sorted by output words within the same input word range, and classified by collecting technical terms that have the same input words and output words. .
また、この具体例では、入力語及び/または出力語の共通する専門用語が同じ分類となるように分類を行う場合について説明したが、前述のように、入力語及び/または出力語の概念が共通する専門用語が同じ分類となるように分類を行ってもよい。その場合には、例えば、図9のフローチャートにおいて、抽出した入力語や出力語を、概念体系辞書や上位下位シソーラス等を用いて概念が共通するグループにグルーピングする。そして、ステップS405において、m番目のグループに属する入力語と、n番目のグループに属する出力語とに対応する専門用語を検索するようにしてもよい。例えば、「日本語」「英語」「中国語」等が「言語」というグループに属する場合には、入力語がグループ「言語」に属し、出力語もグループ「言語」に属する専門用語が一つの分類に分類されることになる。 Further, in this specific example, the case where classification is performed so that technical terms common to input words and / or output words are classified is the same, but as described above, the concept of input words and / or output words is Classification may be performed so that common technical terms are classified into the same classification. In that case, for example, in the flowchart of FIG. 9, the extracted input words and output words are grouped into groups having a common concept using a concept system dictionary, a higher-order lower thesaurus, or the like. In step S405, technical terms corresponding to the input words belonging to the mth group and the output words belonging to the nth group may be searched. For example, when “Japanese”, “English”, “Chinese”, etc. belong to the group “language”, the input word belongs to the group “language” and the output word also has one technical term belonging to the group “language”. It will be classified into classification.
以上のように、本実施の形態による専門用語分類装置2によれば、隣接語句を用いることにより、専門用語を分類することができる。したがって、その分類結果情報を用いることによって、例えば、種々の言語処理の結果を分類することなどが可能となる。また、その専門用語の分類を自動的に行うことによって、人手で分類を行う場合のように多大な時間や労力を必要とすることもなく、また、専門分野に精通した人を確保する必要もないというメリットもある。
As described above, according to the technical
また、入力語や出力語を用いて分類を行うため、処理の対象となる情報や、処理の結果となる情報ごとに、専門用語を分類することができる。なお、共通の入力語等で分類するのか、あるいは、概念が共通する入力語等で分類するのかなどに応じて、分類の広狭を決めることもできうる。 Further, since classification is performed using input words and output words, technical terms can be classified for each piece of information to be processed and information to be processed. It should be noted that the classification range can be determined according to whether classification is based on common input words or the like, or classification is based on input words having a common concept.
また、本実施の形態においても、検索部14の検索した検索用語が文献情報に所定の回数以上含まれていた場合に、その検索用語を構成する専門用語の分類の処理を行ってもよく、そうでなくてもよい点は、実施の形態1と同様である。
Also in the present embodiment, when the search term searched by the
また、分類結果情報に検索結果数を含ませるようにしてもよく、あるいは、しなくてもよい点は、実施の形態1と同様である。なお、本実施の形態では、入力語及び/または出力語ごとに検索数をカウントしなければならないため、例えば、図8のフローチャートにおけるステップS304において、Noと判断される場合に、すでに蓄積されている対応するレコードのヒット数を1だけインクリメントするようにしてもよい。 In addition, the number of search results may be included in the classification result information, or it may not be necessary, as in the first embodiment. In the present embodiment, since the number of searches must be counted for each input word and / or output word, for example, when it is determined No in step S304 in the flowchart of FIG. The hit count of the corresponding record may be incremented by one.
また、本実施の形態では、隣接語句として、「する」「をする」を用いる場合について説明したが、それ以外の隣接語句を用いてもよい。例えば、「を処理する」「を実行する」等を用いてもよく、サ変動詞の活用における終止形以外の隣接語句を用いてもよい。例えば、サ変動詞の活用における未然形の隣接語句「し」「せ」「さ」や、連用形の隣接語句「し」、仮定形の隣接語句「すれ」、命令形の隣接語句「しろ」「せよ」等を用いてもよい。また、隣接語句は句点を含んでもよい。例えば、隣接語句として、「する。」「をする。」等を用いてもよい。このように、本実施の形態で用いる隣接語句は、専門用語の末尾に隣接することによって動作を示す用語を構成しうる接尾語であれば、上述の具体例に限定されるものではない。 In this embodiment, the case where “Yes” and “Yes” are used as the adjacent words has been described, but other adjacent words may be used. For example, “process”, “execute” or the like may be used, and adjacent phrases other than the final form in the use of the sub-variable may be used. For example, in the use of sub-variables, the adjacent forms of words “shi”, “se”, “sa”, consecutive words “shi”, hypothetical words “sore”, imperative words “shiro” “seyo” Or the like may be used. In addition, the adjacent phrase may include a phrase. For example, “Yes”, “Yes”, etc. may be used as the adjacent phrase. As described above, the adjacent phrase used in the present embodiment is not limited to the above-described specific examples as long as it is a suffix that can constitute a term indicating an operation by being adjacent to the end of the technical term.
(実施の形態3)
本発明の実施の形態3による専門用語分類装置について、図面を参照しながら説明する。本実施の形態による専門用語分類装置は、複数の専門用語が同じ分類に属するかどうか判断するための辞書を用いることによって、分類結果情報に専門用語を追加し、分類結果情報を拡張するものである。
(Embodiment 3)
A technical term classification device according to Embodiment 3 of the present invention will be described with reference to the drawings. The terminology classification apparatus according to the present embodiment adds a terminology to classification result information and extends the classification result information by using a dictionary for determining whether or not a plurality of technical terms belong to the same classification. is there.
図13は、本実施の形態による専門用語分類装置3の構成を示すブロック図である。図13において、本実施の形態による専門用語分類装置3は、専門用語記憶部11と、隣接語句記憶部12と、文献情報記憶部13と、検索部14と、分類部15と、分類結果情報記憶部16と、出力部17と、辞書情報記憶部41と、判断部42と、追加分類部43とを備える。なお、辞書情報記憶部41、判断部42、追加分類部43以外の構成及び動作は、実施の形態1と同様であり、その説明を省略する。また、本実施の形態では、実施の形態1による専門用語分類装置1に辞書情報記憶部41、判断部42、追加分類部43をさらに備えた構成について説明するが、実施の形態2による専門用語分類装置2に辞書情報記憶部41、判断部42、追加分類部43をさらに備えるようにしてもよく、その場合にも、以下での説明と同様の効果が得られる。
FIG. 13 is a block diagram showing the configuration of the technical term classification device 3 according to the present embodiment. In FIG. 13, the technical term classification device 3 according to the present embodiment includes a technical term storage unit 11, an adjacent
辞書情報記憶部41では、辞書情報が記憶される。ここで、辞書情報とは、複数の専門用語が同じ分類に属するかどうか判断するための辞書を示す情報である。この辞書情報は、例えば、同義語の辞書を示す情報であってもよく、上位語と下位語との対応を示す情報であってもよく、類義語の辞書を示す情報であってもよい。
In the dictionary
同義語とは、語形は異なるが意義はほぼ同じである用語であり、同意語と呼ばれることもある。2個の用語が同義語である場合には、その用語は一般に交換可能である。例えば、「台所」と「厨房」は同義語である。また、「台所」と「キッチン」も同義語である。「キッチン」と「Kitchen」のように、同じ対象を異なる言語で表現したものも同義語である。また、「ワープロ」と「ワードプロセッサ」のように、短縮語と元の用語も同義語である。また、技術用語である「ワープロ」と、特許用語である「文書編集装置」「文書作成編集装置」も同義語である。「フロッピー(登録商標)ディスク」と「FD」も同義語である。また、「カッター」と「カッタ」のような表記が揺れている用語も同義語である。同義語の辞書とは、同義語が一つのグループにまとめられている辞書のことである A synonym is a term that has a different form but has almost the same meaning, and is sometimes called a synonym. Where two terms are synonymous, the terms are generally interchangeable. For example, “kitchen” and “kitchen” are synonymous. “Kitchen” and “kitchen” are also synonymous. Expressions of the same object in different languages, such as “Kitchen” and “Kitchen” are also synonymous. Also, the abbreviation and the original term are synonymous, such as “word processor” and “word processor”. The technical terms “word processor” and patent terms “document editing device” and “document creation editing device” are also synonymous. “Floppy (registered trademark) disk” and “FD” are also synonymous. In addition, terms such as “cutter” and “cutter” are also synonymous. A synonym dictionary is a dictionary in which synonyms are grouped together.
上位語と下位語は、次のような関係にある。ある複数の下位語のグループの概念を包括する用語が上位語である。例えば、上位語「動物」には、下位語「牛」「羊」「ライオン」「人間」等が対応する。また、上位語「金属」には、下位語「銅」「金」「アルミニウム」等が対応する。
類義語とは、意味の類似する用語である。例えば、「試合」と「勝負」は類義語である。
Broader terms and narrower terms have the following relationship. A term encompassing the concept of a group of a plurality of narrower terms is a broader term. For example, the broad term “animal” corresponds to the narrow terms “cow”, “sheep”, “lion”, “human”, and the like. Further, the broader terms “metal” correspond to the lower terms “copper”, “gold”, “aluminum”, and the like.
Synonyms are terms with similar meanings. For example, “game” and “game” are synonyms.
辞書情報記憶部41は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。辞書情報記憶部41に辞書情報が記憶される過程は問わない。例えば、記録媒体を介して辞書情報が辞書情報記憶部41で記憶されるようになってもよく、通信回線等を介して送信された辞書情報が辞書情報記憶部41で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された辞書情報が辞書情報記憶部41で記憶されるようになってもよい。辞書情報記憶部41での記憶は、外部のストレージデバイス等から読み出した実績データのRAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。
The dictionary
また、専門用語記憶部11と、隣接語句記憶部12と、文献情報記憶部13と、辞書情報記憶部41とは、同一の記録媒体によって実現されてもよく、別々の記録媒体によって実現されてもよい。
Further, the technical term storage unit 11, the adjacent
判断部42は、分類対象である専門用語が、すでに分類されている専門用語と同じ分類に属するかどうかを判断する。この判断は、辞書情報記憶部41で記憶されている辞書情報を参照して実行される。また、分類対象である専門用語は、専門用語記憶部11で記憶されている専門用語である。なお、分類対象である専門用語は、専門用語記憶部11で記憶されているすべての専門用語であってもよく、あるいは、一部の専門用語であってもよい。後者の場合に、分類結果情報に含まれていない専門用語が分類対象である専門用語であってもよく、あるいは、ある分類に対しては、その分類に含まれていない専門用語が分類対象である専門用語であってもよい(この場合には、分類ごとに分類対象である専門用語が異なることになる)。
The
判断部42が、例えば、類義語の辞書を示す辞書情報を参照して判断を行う際には、2個の専門用語が同義語の関係にある場合に、同じ分類に属すると判断してもよい。また、判断部42が、例えば、上位語と下位語との対応を示す辞書情報を参照して判断を行う際には、上位語の専門用語に対応する複数の下位語の専門用語が、同じ分類に属する場合に、その上位語の専門用語が、その複数の下位語の専門用語が属する分類に属すると判断してもよい。「複数の下位語」における下位語の個数は、例えば、下限値が設定されていてもよい。すなわち、上位語の専門用語に対応する所定の個数以上の下位語の専門用語が同じ分類に属する場合に、その上位語の専門用語が、その下位語の専門用語の属する分類に属すると判断されてもよい。
For example, when the
追加分類部43は、判断部42により、分類対象である専門用語が、すでに分類されている専門用語と同じ分類に属すると判断された場合に、その分類対象である専門用語を、すでに分類されている専門用語と同じ分類に分類する。この追加分類部43による専門用語の分類への追加が行われることによって、分類結果情報が拡張されていくことになる。
When the
次に、本実施の形態による専門用語分類装置3の動作について、図14のフローチャートを用いて説明する。なお、このフローチャートでは、分類を拡張する処理のみについて説明し、実施の形態1で説明した、隣接語句等を用いることによって分類結果情報を作成する処理に関する説明は省略する。 Next, operation | movement of the technical term classification device 3 by this Embodiment is demonstrated using the flowchart of FIG. In this flowchart, only the process for expanding the classification will be described, and the description regarding the process for creating the classification result information by using the adjacent words and the like described in the first embodiment will be omitted.
(ステップS501)判断部42は、分類の追加を開始するタイミングかどうか判断する。そして、分類の追加を開始するタイミングである場合には、ステップS502に進み、そうでない場合には、分類の追加を開始するタイミングと判断されるまで、ステップS501の処理を繰り返して実行する。
(Step S501) The
(ステップS502)判断部42は、カウンタiを1に設定する。
(ステップS503)判断部42は、カウンタjを1に設定する。
(ステップS504)判断部42は、専門用語記憶部11で記憶されているi番目の専門用語を読み出す。
(Step S502) The
(Step S503) The
(Step S504) The
(ステップS505)判断部42は、分類結果情報記憶部16で記憶されている分類結果情報を参照し、その分類結果情報におけるj番目の分類に、i番目の専門用語が含まれるかどうか判断する。そして、含まれる場合には、ステップS508に進み、含まれない場合には、ステップS506に進む。
(Step S505) The
(ステップS506)判断部42は、辞書情報記憶部41で記憶されている辞書情報を参照して、i番目の専門用語と、j番目の分類に含まれるいずれかの専門用語とが同じ分類であるかどうか判断する。そして、同じ分類である場合には、ステップS507に進み、そうでない場合には、ステップS508に進む。
(Step S506) The
(ステップS507)追加分類部43は、分類結果情報におけるj番目の分類に、i番目の専門用語を追加する。
(ステップS508)判断部42は、カウンタjを1だけインクリメントする。
(Step S507) The
(Step S508) The
(ステップS509)判断部42は、分類結果情報において、j番目の分類が存在するかどうか判断する。そして、存在する場合には、ステップS505に戻り、そうでない場合には、ステップS510に進む。
(ステップS510)判断部42は、カウンタiを1だけインクリメントする。
(Step S509) The
(Step S510) The
(ステップS511)判断部42は、専門用語記憶部11において、i番目の専門用語が存在するかどうか判断する。そして、存在する場合には、ステップS503に戻り、そうでない場合には、ステップS501に戻る。
(Step S511) The
なお、図14のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。また、図14のフローチャートにおいて、ステップS511からステップS501に戻る際に、分類結果情報の出力を行ってもよい。また、その分類結果情報の出力は、分類結果情報への専門用語の追加が行われた場合にのみ実行してもよい。 In the flowchart of FIG. 14, the process is terminated by powering off or a process termination interrupt. In the flowchart of FIG. 14, the classification result information may be output when returning from step S511 to step S501. Further, the output of the classification result information may be executed only when a technical term is added to the classification result information.
次に、本実施の形態による専門用語分類装置3の動作について、具体例を用いて説明する。
この具体例でも、実施の形態1の具体例と同様に、専門用語分類装置3は、パーソナル・コンピュータであるとする。また、専門用語記憶部11では、図15で示される専門用語が記憶されているものとする。また、実施の形態1と同様の方法によって、図16で示される分類結果情報が構成され、分類結果情報記憶部16で記憶されているものとする。また、辞書情報記憶部41では、図17で示される同義語辞書が記憶されているものとする。図17において、複数の同義語が一のIDに対応付けられている。
Next, operation | movement of the technical term classification device 3 by this Embodiment is demonstrated using a specific example.
In this specific example, as in the specific example of the first embodiment, the technical term classification device 3 is assumed to be a personal computer. Further, it is assumed that the technical term storage unit 11 stores the technical term shown in FIG. Further, it is assumed that the classification result information shown in FIG. 16 is configured and stored in the classification result
まず、分類の追加の処理が開始されると(ステップS501)、判断部42は、1番目の専門用語「文書編集装置」を読み出し(ステップS502〜S504)、その専門用語が1番目の分類、すなわち、ID=1の分類に含まれるかどうか判断する(ステップS505)。ここでは、含まれないと判断されたとする。すると、判断部42は、1番目の専門用語「文書編集装置」と、1番目の分類に含まれる専門用語とが、同じ分類であるかどうかを、図17で示される同義語辞書を用いて判断する(ステップS506)。
First, when the process of adding classification is started (step S501), the
具体的には、判断部42は、同義語辞書を参照して、その専門用語「文書編集装置」の同義語「ワープロ」「ワードプロセッサ」「文書作成編集装置」を取得する。そして、その取得した同義語が、1番目の分類に含まれるかどうか判断する。この場合には、「ワープロ」「ワードプロセッサ」が含まれるため、判断部42は、専門用語「文書編集装置」と、1番目の分類に含まれる専門用語とが同じ分類であると判断する。そして、その専門用語「文書編集装置」と、分類の識別情報「ID=1」とを追加分類部43に渡す。すると、追加分類部43は、ID=1の分類に、専門用語「文書編集装置」を追加する(ステップS507)。このようにして、専門用語の追加が行われ、分類結果情報の拡張が行われる。
Specifically, the
次に、辞書情報記憶部41で、図18で示される上位下位シソーラスが記憶されている場合について説明する。なお、3個以上の下位語が同一の分野に含まれていた場合に、その下位語に対応する上位語を、その分野に追加するものとする。
Next, a case where the dictionary
ここで、カウンタiが2であり、カウンタjも2であったとする。すると、判断部42は、2番目の専門用語「自然言語処理」を読み出し、その専門用語が2番目の分類に含まれるかどうか判断する(ステップS505)。ここでは、含まれないと判断されたとする。すると、判断部42は、2番目の専門用語「自然言語処理」と、2番目の分類に含まれる専門用語とが、同じ分類であるかどうかを、図18の上位下位シソーラスを用いて判断する(ステップS506)。
Here, it is assumed that the counter i is 2 and the counter j is 2. Then, the
具体的には、判断部42は、上位下位シソーラスを参照して、その専門用語「自然言語処理」の下位語「機械翻訳」「構文解析」「意味解析」「翻訳処理」「かな漢字変換」等を取得する。そして、その取得した下位語が、2番目の分類に含まれるかどうか判断する。この場合には、取得した3個の下位語「機械翻訳」「構文解析」「翻訳処理」が2番目の分類に含まれるため、判断部42は、専門用語「自然言語処理」と、2番目の分類に含まれる専門用語とは同じ分類であると判断する。そして、その専門用語「自然言語処理」と、分類の識別情報「ID=2」とを追加分類部43に渡す。すると、追加分類部43は、ID=2の分類に、専門用語「自然言語処理」を追加する(ステップS507)。このようにして、専門用語の追加が行われ、分類結果情報の拡張が行われる。
Specifically, the
以上のように、本実施の形態による専門用語分類装置3によれば、辞書情報を用いることによって、専門用語を分類することができ、その結果として、分類結果情報を拡張することができる。例えば、文献情報に技術文献を示す情報ばかりが含まれており、特許文献を示す情報が含まれていない場合には、上記の具体例のように、特許文献で用いられることが多いと考えられる「文書編集装置」が分類されていない可能性もありうる。しかし、辞書情報を用いて分類を拡張することによって、そのような文献情報に含まれていない用語をも分類に追加することが可能となりうる。 As described above, according to the technical term classification device 3 according to the present embodiment, it is possible to classify technical terms by using dictionary information, and as a result, it is possible to expand classification result information. For example, when the document information includes only information indicating the technical document and does not include the information indicating the patent document, it is often used in the patent document as in the above specific example. There is a possibility that the “document editing device” is not classified. However, by extending the classification using dictionary information, it may be possible to add terms that are not included in such literature information to the classification.
なお、本実施の形態では、実施の形態1,2の専門用語分類装置1,2に辞書情報記憶部41、判断部42、追加分類部43を追加した構成について説明したが、本実施の形態による専門用語分類装置3は、辞書情報を用いて分類結果情報を拡張するものであるため、隣接語句記憶部12や、検索部14等は必須の構成要素ではない。したがって、図19で示されるように、専門用語分類装置3は、専門用語記憶部11と、分類結果情報記憶部16と、出力部17と、辞書情報記憶部41と、判断部42と、追加分類部43とを備えるものであって、隣接語句記憶部12や、検索部14等を備えていなくてもよい。
In the present embodiment, the configuration in which the dictionary
また、上記各実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。 In each of the above embodiments, each processing or each function may be realized by centralized processing by a single device or a single system, or distributed processing by a plurality of devices or a plurality of systems. May be realized.
また、上記各実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。なお、上記各実施の形態における専門用語分類装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、2以上の専門用語が記憶される専門用語記憶部で記憶されている専門用語に、専門用語に隣接しうる語句である隣接語句が記憶される隣接語句記憶部で記憶されている隣接語句を隣接させた検索用語を構成し、特定の分野における文献を示す情報である複数の文献情報において、当該検索用語を検索する検索ステップと、前記検索ステップでの検索結果に応じて、検索用語に含まれる専門用語を分類する分類ステップと、前記分類ステップで分類された結果を示す情報である分類結果情報が記憶される分類結果情報記憶部で記憶されている分類結果情報を出力する出力ステップと、を実行させるためのものである。 In each of the above embodiments, each component may be configured by dedicated hardware, or a component that can be realized by software may be realized by executing a program. For example, each component can be realized by a program execution unit such as a CPU reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory. The software for realizing the technical term classification device in each of the above embodiments is a program as follows. In other words, the program includes an adjacent phrase storage unit in which an adjacent phrase that is a phrase that can be adjacent to the technical term is stored in the technical term stored in the technical term storage unit in which two or more technical terms are stored in the computer. A search step for searching for the search term in a plurality of document information that constitutes a search term in which the adjacent words and phrases stored in are adjacent to each other, and a search result in the search step And a classification result stored in a classification result information storage unit that stores classification result information that is information indicating a result classified in the classification step. And an output step for outputting information.
また、他のプログラムは、コンピュータに、専門用語が記憶される専門用語記憶部で記憶されている、分類対象である専門用語が、すでに分類されている専門用語と同じ分類に属するかどうかを、複数の専門用語が同じ分類に属するかどうか判断するための辞書を示す情報である辞書情報を参照して判断する判断ステップと、前記判断ステップにおいて、前記分類対象である専門用語が、すでに分類されている専門用語と同じ分類に属すると判断された場合に、当該分類対象である専門用語を、分類結果情報記憶部において記憶されている、専門用語が分類された結果を示す情報である分類結果情報において、すでに分類されている専門用語と同じ分類に分類する追加分類ステップと、前記分類結果情報記憶部で記憶されている分類結果情報を出力する出力ステップと、を実行させるためのものである。 Further, another program determines whether the technical term to be classified, which is stored in the technical term storage unit in which the technical term is stored, belongs to the same classification as the technical term that has already been classified. In the determination step that refers to dictionary information that is information indicating a dictionary for determining whether or not a plurality of technical terms belong to the same classification, in the determination step, the technical terms that are the classification targets are already classified. If it is determined that the technical term belongs to the same classification as the technical term in question, the technical term that is the classification target is stored in the classification result information storage unit, and the classification result is information indicating the result of classification of the technical term In the information, an additional classification step for classifying into the same classification as the technical terms already classified, and the classification result information stored in the classification result information storage unit An output step of outputting, is intended for causing the execution.
なお、上記プログラムにおいて、情報を出力する出力ステップなどでは、ハードウェアでしか行われない処理、例えば、出力ステップにおけるモデムやインターフェースカードなどで行われる処理は少なくとも含まれない。 In the above program, the output step for outputting information does not include at least processing performed only by hardware, for example, processing performed by a modem or an interface card in the output step.
また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体(例えば、CD−ROMなどの光ディスクや磁気ディスク、半導体メモリなど)に記録されたプログラムが読み出されることによって実行されてもよい。 Further, this program may be executed by being downloaded from a server or the like, and a program recorded on a predetermined recording medium (for example, an optical disk such as a CD-ROM, a magnetic disk, a semiconductor memory, or the like) is read out. May be executed by
また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。 Further, the computer that executes this program may be singular or plural. That is, centralized processing may be performed, or distributed processing may be performed.
図20は、上記プログラムを実行して、上記実施の形態による専門用語分類装置を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現される。 FIG. 20 is a schematic diagram showing an example of the appearance of a computer that executes the program and realizes the technical term classification device according to the embodiment. The above-described embodiment is realized by computer hardware and a computer program executed on the computer hardware.
図20において、コンピュータシステム100は、CD−ROM(Compact Disk Read Only Memory)ドライブ105、FD(Flexible Disk)ドライブ106を含むコンピュータ101と、キーボード102と、マウス103と、モニタ104とを備える。
20, a
図21は、コンピュータシステムを示す図である。図21において、コンピュータ101は、CD−ROMドライブ105、FDドライブ106に加えて、CPU(Central Processing Unit)111と、ブートアッププログラム等のプログラムを記憶するためのROM(Read Only Memory)112と、CPU111に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM(Random Access Memory)113と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク114と、CPU111、ROM112等を相互に接続するバス115とを備える。なお、コンピュータ101は、LANへの接続を提供する図示しないネットワークカードを含んでいてもよい。
FIG. 21 is a diagram illustrating a computer system. In FIG. 21, in addition to the CD-
コンピュータシステム100に、上記実施の形態による専門用語分類装置の機能を実行させるプログラムは、CD−ROM121、またはFD122に記憶されて、CD−ROMドライブ105、またはFDドライブ106に挿入され、ハードディスク114に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ101に送信され、ハードディスク114に記憶されてもよい。プログラムは実行の際にRAM113にロードされる。なお、プログラムは、CD−ROM121やFD122、またはネットワークから直接、ロードされてもよい。
A program that causes the
プログラムは、コンピュータ101に、上記実施の形態による専門用語分類装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム100がどのように動作するのかについては周知であり、詳細な説明は省略する。
また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
The program does not necessarily include an operating system (OS) or a third-party program that causes the
Further, the present invention is not limited to the above-described embodiment, and various modifications are possible, and it goes without saying that these are also included in the scope of the present invention.
以上より、本発明による専門用語分類装置等によれば、専門用語を適切に分類することができ、専門用語を分類するシステム等として有用である。 As described above, according to the technical term classification device and the like according to the present invention, technical terms can be appropriately classified, which is useful as a system for classifying technical terms.
1、2、3 専門用語分類装置
11 専門用語記憶部
12 隣接語句記憶部
13 文献情報記憶部
14 検索部
15、21 分類部
16 分類結果情報記憶部
17 出力部
31 取得手段
32 特定手段
33 蓄積手段
34 分類手段
41 辞書情報記憶部
42 判断部
43 追加分類部
1, 2, 3 Technical term classification device 11 Technical
Claims (17)
専門用語に隣接しうる語句である隣接語句が記憶される隣接語句記憶部と、
前記専門用語記憶部で記憶されている専門用語に、前記隣接語句記憶部で記憶されている隣接語句を隣接させた検索用語を構成し、特定の分野における文献を示す情報である複数の文献情報において、当該検索用語を検索する検索部と、
前記検索部による検索結果に応じて、検索用語に含まれる専門用語を分類する分類部と、
前記分類部によって分類された結果を示す情報である分類結果情報が記憶される分類結果情報記憶部と、
前記分類結果情報記憶部で記憶されている分類結果情報を出力する出力部と、を備えた専門用語分類装置。 A technical term storage unit for storing two or more technical terms;
An adjacent phrase storage unit that stores adjacent phrases that can be adjacent to technical terms;
A plurality of document information that is information indicating a document in a specific field by configuring a search term in which the adjacent word stored in the adjacent word storage unit is adjacent to the technical term stored in the technical word storage unit A search unit for searching for the search term;
According to the search result by the search unit, a classification unit that classifies the technical terms included in the search term;
A classification result information storage unit in which classification result information, which is information indicating a result classified by the classification unit, is stored;
And an output unit that outputs the classification result information stored in the classification result information storage unit.
前記検索部は、前記文献情報記憶部で記憶されている複数の文献情報において、検索用語を検索する、請求項1記載の専門用語分類装置。 A document information storage unit for storing a plurality of document information;
The technical term classification device according to claim 1, wherein the search unit searches for a search term in a plurality of document information stored in the document information storage unit.
前記分類部は、前記検索部の検索した検索用語が文献情報に含まれていた場合に、当該検索用語を構成する専門用語を、当該検索用語を構成する隣接語句に応じて分類する、請求項1または請求項2記載の専門用語分類装置。 The adjacent phrase is a prefix that can be adjacent to the beginning of the technical term, or a suffix that can be adjacent to the end of the technical term,
The classification unit, when the search term searched by the search unit is included in the literature information, classifies the technical terms constituting the search term according to the adjacent words constituting the search term. The technical term classification device according to claim 1 or claim 2.
前記分類部は、前記検索部の検索した検索用語が文献情報に含まれていた場合に、当該検索用語を構成する専門用語を、当該検索用語を構成する隣接語句のグループに応じて分類する、請求項3または請求項4記載の専門用語分類装置。 The adjacent words are divided into a plurality of groups,
When the search term searched by the search unit is included in the literature information, the classification unit classifies the technical terms constituting the search term according to a group of adjacent phrases constituting the search term. The technical term classification device according to claim 3 or 4.
前記分類部は、
前記検索用語の含まれる1以上の文を文献情報から取得する取得手段と、
前記取得手段の取得した1以上の文において、前記検索用語に対する入力語及び/または出力語を特定する特定手段と、
前記特定手段の特定した入力語及び/または出力語を、前記検索用語を構成する専門用語に対応付けて蓄積する蓄積手段と、
前記蓄積手段の蓄積した入力語及び/または出力語に応じて、当該入力語及び/または出力語に対応する専門用語を分類する分類手段と、を備えた、請求項1または請求項2記載の専門用語分類装置。 The adjacent phrase is a suffix that can constitute a term indicating an action by being adjacent to the end of a technical term,
The classification unit includes:
Obtaining means for obtaining one or more sentences including the search term from literature information;
Specifying means for specifying an input word and / or an output word for the search term in one or more sentences acquired by the acquiring means;
Storing means for storing the input words and / or output words specified by the specifying means in association with technical terms constituting the search terms;
The classification means which classify | categorizes the technical vocabulary corresponding to the said input word and / or output word according to the input word and / or output word which the said accumulation | storage means accumulate | stored was provided. Technical term classification device.
前記専門用語記憶部で記憶されている、分類対象である専門用語が、すでに分類されている専門用語と同じ分類に属するかどうかを、前記辞書情報を参照して判断する判断部と、
前記判断部により、前記分類対象である専門用語が、すでに分類されている専門用語と同じ分類に属すると判断された場合に、当該分類対象である専門用語を、すでに分類されている専門用語と同じ分類に分類する追加分類部と、をさらに備えた請求項1から請求項9のいずれか記載の専門用語分類装置。 A dictionary information storage unit that stores dictionary information that is information indicating a dictionary for determining whether a plurality of technical terms belong to the same classification;
A determination unit that determines whether or not the technical term to be classified, which is stored in the technical term storage unit, belongs to the same classification as the technical term that has already been classified, with reference to the dictionary information;
When the judgment unit determines that the technical term that is the classification target belongs to the same classification as the technical term that has already been classified, the technical term that is the classification target is changed to the technical term that has already been classified. The technical term classification device according to any one of claims 1 to 9, further comprising an additional classification unit for classifying into the same classification.
前記判断部は、2個の専門用語が同義語の関係にある場合に、同じ分類に属すると判断する、請求項10記載の専門用語分類装置。 The dictionary information is information indicating a dictionary of synonyms,
The technical term classification device according to claim 10, wherein the determination unit determines that the two technical terms belong to the same classification when they have a synonym relationship.
前記判断部は、上位語の専門用語に対応する複数の下位語の専門用語が、同じ分類に属する場合に、当該上位語の専門用語が、当該下位語の専門用語が属する分類に属すると判断する、請求項10記載の専門用語分類装置。 The dictionary information is information indicating correspondence between broader terms and narrower terms,
The determination unit determines that the technical term of the broader term belongs to the classification to which the technical term of the lower term belongs when a plurality of the technical terms of the lower term corresponding to the technical term of the broader term belong to the same classification. The technical term classification device according to claim 10.
専門用語が分類された結果を示す情報である分類結果情報が記憶される分類結果情報記憶部と、
複数の専門用語が同じ分類に属するかどうか判断するための辞書を示す情報である辞書情報が記憶される辞書情報記憶部と、
前記専門用語記憶部で記憶されている、分類対象である専門用語が、すでに分類されている専門用語と同じ分類に属するかどうかを、前記辞書情報を参照して判断する判断部と、
前記判断部により、前記分類対象である専門用語が、すでに分類されている専門用語と同じ分類に属すると判断された場合に、当該分類対象である専門用語を、すでに分類されている専門用語と同じ分類に分類する追加分類部と、
前記分類結果情報記憶部で記憶されている分類結果情報を出力する出力部と、を備えた専門用語分類装置。 A technical term storage unit for storing technical terms;
A classification result information storage unit in which classification result information, which is information indicating a result of classification of technical terms, is stored;
A dictionary information storage unit that stores dictionary information that is information indicating a dictionary for determining whether a plurality of technical terms belong to the same classification;
A determination unit that determines whether or not the technical term that is the classification target stored in the technical term storage unit belongs to the same classification as the technical term that has already been classified, with reference to the dictionary information;
When the judgment unit determines that the technical term that is the classification target belongs to the same classification as the technical term that has already been classified, the technical term that is the classification target is changed to the technical term that has already been classified. An additional classifier that classifies the same class;
And an output unit that outputs the classification result information stored in the classification result information storage unit.
前記検索部が、前記専門用語記憶部で記憶されている専門用語に、前記隣接語句記憶部で記憶されている隣接語句を隣接させた検索用語を構成し、特定の分野における文献を示す情報である複数の文献情報において、当該検索用語を検索する検索ステップと、
前記分類部が、前記検索ステップでの検索結果に応じて、検索用語に含まれる専門用語を分類する分類ステップと、
前記出力部が、前記分類結果情報記憶部で記憶されている分類結果情報を出力する出力ステップと、を備えた専門用語分類方法。 The terminology storage unit stores two or more technical terms, the adjacent term storage unit stores adjacent words that can be adjacent to the technical terms, the search unit, the classification unit, and the classification unit. A classification result information storage unit for storing classification result information, which is information indicating a result obtained, and a technical term classification method processed using an output unit,
The search unit constitutes a search term in which the adjacent term stored in the adjacent term storage unit is adjacent to the technical term stored in the technical term storage unit, and indicates information in a specific field. A search step for searching for the search term in a plurality of document information,
A classification step in which the classification unit classifies technical terms included in a search term according to a search result in the search step;
An output step in which the output unit outputs the classification result information stored in the classification result information storage unit.
前記判断部が、前記専門用語記憶部で記憶されている、分類対象である専門用語が、すでに分類されている専門用語と同じ分類に属するかどうかを、前記辞書情報を参照して判断する判断ステップと、
前記追加分類部が、前記判断ステップにおいて、前記分類対象である専門用語が、すでに分類されている専門用語と同じ分類に属すると判断された場合に、当該分類対象である専門用語を、すでに分類されている専門用語と同じ分類に分類する追加分類ステップと、
前記出力部が、前記分類結果情報記憶部で記憶されている分類結果情報を出力する出力ステップと、を備えた専門用語分類方法。 A technical term storage unit that stores technical terms, a classification result information storage unit that stores classification result information, which is information indicating the result of classification of technical terms, and a judgment as to whether multiple technical terms belong to the same category A terminology classification method that is processed using a dictionary information storage unit that stores dictionary information that is information indicating a dictionary for performing, a determination unit, an additional classification unit, and an output unit,
Judgment in which the judgment unit judges whether or not the technical term to be classified, which is stored in the technical term storage unit, belongs to the same classification as the technical term already classified, with reference to the dictionary information Steps,
When the additional classification unit determines in the determination step that the technical term that is the classification target belongs to the same classification as the technical term that has already been classified, the technical term that is the classification target is already classified. An additional categorization step to classify the same categorization as the terminology used,
An output step in which the output unit outputs the classification result information stored in the classification result information storage unit.
2以上の専門用語が記憶される専門用語記憶部で記憶されている専門用語に、専門用語に隣接しうる語句である隣接語句が記憶される隣接語句記憶部で記憶されている隣接語句を隣接させた検索用語を構成し、特定の分野における文献を示す情報である複数の文献情報において、当該検索用語を検索する検索ステップと、
前記検索ステップでの検索結果に応じて、検索用語に含まれる専門用語を分類する分類ステップと、
前記分類ステップで分類された結果を示す情報である分類結果情報が記憶される分類結果情報記憶部で記憶されている分類結果情報を出力する出力ステップと、を実行させるためのプログラム。 On the computer,
Adjacent to the technical terms stored in the technical term storage unit storing two or more technical terms, the adjacent terms stored in the adjacent phrase storage unit storing adjacent phrases that can be adjacent to the technical terms A search step for searching the search term in a plurality of document information that is information indicating a document in a specific field,
A classification step of classifying technical terms included in the search terms according to the search results in the search step;
A program for executing an output step of outputting classification result information stored in a classification result information storage unit in which classification result information, which is information indicating a result classified in the classification step, is stored.
専門用語が記憶される専門用語記憶部で記憶されている、分類対象である専門用語が、すでに分類されている専門用語と同じ分類に属するかどうかを、複数の専門用語が同じ分類に属するかどうか判断するための辞書を示す情報である辞書情報を参照して判断する判断ステップと、
前記判断ステップにおいて、前記分類対象である専門用語が、すでに分類されている専門用語と同じ分類に属すると判断された場合に、当該分類対象である専門用語を、分類結果情報記憶部において記憶されている、専門用語が分類された結果を示す情報である分類結果情報において、すでに分類されている専門用語と同じ分類に分類する追加分類ステップと、
前記分類結果情報記憶部で記憶されている分類結果情報を出力する出力ステップと、を実行させるためのプログラム。 On the computer,
Whether the technical terms to be classified that are stored in the technical term storage unit that stores the technical terms belong to the same category as the technical terms that have already been classified, or whether multiple technical terms belong to the same category A determination step of determining with reference to dictionary information that is information indicating a dictionary for determining whether or not;
In the determination step, when it is determined that the technical term that is the classification target belongs to the same classification as the technical term that has already been classified, the technical term that is the classification target is stored in the classification result information storage unit. In the classification result information, which is information indicating the result of classification of the technical terms, an additional classification step for classifying into the same classification as the technical terms already classified,
An output step of outputting the classification result information stored in the classification result information storage unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007053771A JP5252410B2 (en) | 2007-03-05 | 2007-03-05 | Technical term classification device, technical term classification method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007053771A JP5252410B2 (en) | 2007-03-05 | 2007-03-05 | Technical term classification device, technical term classification method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008217398A true JP2008217398A (en) | 2008-09-18 |
JP5252410B2 JP5252410B2 (en) | 2013-07-31 |
Family
ID=39837363
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007053771A Active JP5252410B2 (en) | 2007-03-05 | 2007-03-05 | Technical term classification device, technical term classification method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5252410B2 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021022186A (en) * | 2019-07-29 | 2021-02-18 | 株式会社日立製作所 | Healthcare data analysis device and analysis method |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03131967A (en) * | 1989-10-18 | 1991-06-05 | Ricoh Co Ltd | Method for sorting japanese word |
JPH0991314A (en) * | 1995-07-14 | 1997-04-04 | Fuji Xerox Co Ltd | Information search device |
JPH09319752A (en) * | 1996-05-29 | 1997-12-12 | Nec Corp | Retrieval supporting device |
JP2001134602A (en) * | 1999-11-08 | 2001-05-18 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for analyzing address and recording medium with address analysis program recorded thereon |
JP2002123545A (en) * | 2000-10-17 | 2002-04-26 | Canon Inc | Apparatus and method for document retrieval and recording medium |
JP2003208447A (en) * | 2002-01-11 | 2003-07-25 | Nippon Telegr & Teleph Corp <Ntt> | Device, method and program for retrieving document, and medium recorded with program for retrieving document |
JP2003316708A (en) * | 2002-04-19 | 2003-11-07 | Nippon Telegr & Teleph Corp <Ntt> | Retrieved condition specifying system in user retrieval, user retrieval method, user retrieval program, and recording medium for the program |
JP2005085112A (en) * | 2003-09-10 | 2005-03-31 | Toshiba Corp | Information classification system and program |
JP2005234731A (en) * | 2004-02-18 | 2005-09-02 | Fuji Xerox Co Ltd | Document sorting apparatus and method |
JP2006119912A (en) * | 2004-10-21 | 2006-05-11 | Tokkyo Joho Shuppan:Kk | Retrieval system |
-
2007
- 2007-03-05 JP JP2007053771A patent/JP5252410B2/en active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03131967A (en) * | 1989-10-18 | 1991-06-05 | Ricoh Co Ltd | Method for sorting japanese word |
JPH0991314A (en) * | 1995-07-14 | 1997-04-04 | Fuji Xerox Co Ltd | Information search device |
JPH09319752A (en) * | 1996-05-29 | 1997-12-12 | Nec Corp | Retrieval supporting device |
JP2001134602A (en) * | 1999-11-08 | 2001-05-18 | Nippon Telegr & Teleph Corp <Ntt> | Method and device for analyzing address and recording medium with address analysis program recorded thereon |
JP2002123545A (en) * | 2000-10-17 | 2002-04-26 | Canon Inc | Apparatus and method for document retrieval and recording medium |
JP2003208447A (en) * | 2002-01-11 | 2003-07-25 | Nippon Telegr & Teleph Corp <Ntt> | Device, method and program for retrieving document, and medium recorded with program for retrieving document |
JP2003316708A (en) * | 2002-04-19 | 2003-11-07 | Nippon Telegr & Teleph Corp <Ntt> | Retrieved condition specifying system in user retrieval, user retrieval method, user retrieval program, and recording medium for the program |
JP2005085112A (en) * | 2003-09-10 | 2005-03-31 | Toshiba Corp | Information classification system and program |
JP2005234731A (en) * | 2004-02-18 | 2005-09-02 | Fuji Xerox Co Ltd | Document sorting apparatus and method |
JP2006119912A (en) * | 2004-10-21 | 2006-05-11 | Tokkyo Joho Shuppan:Kk | Retrieval system |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2021022186A (en) * | 2019-07-29 | 2021-02-18 | 株式会社日立製作所 | Healthcare data analysis device and analysis method |
JP7171522B2 (en) | 2019-07-29 | 2022-11-15 | 株式会社日立製作所 | Healthcare data analysis device and analysis method |
Also Published As
Publication number | Publication date |
---|---|
JP5252410B2 (en) | 2013-07-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2006338457A (en) | Query answering system, data search method, and computer program | |
JP2007141090A (en) | Question answering system, data retrieval method and computer program | |
JP2008287406A (en) | Information processor, information processing method, program, and recording medium | |
JP2011118689A (en) | Retrieval method and system | |
KR101136037B1 (en) | Method and apparatus for indexing and retrieving documents | |
KR20070007001A (en) | Method and apparatus for searching information using automatic query creation | |
JP4466334B2 (en) | Information classification method and apparatus, program, and storage medium storing program | |
JP4143085B2 (en) | Synonym acquisition method and apparatus, program, and computer-readable recording medium | |
JP5463494B2 (en) | Technology trend information generator | |
JP5252410B2 (en) | Technical term classification device, technical term classification method, and program | |
JP4428703B2 (en) | Information retrieval method and system, and computer program | |
JP4148247B2 (en) | Vocabulary acquisition method and apparatus, program, and computer-readable recording medium | |
KR101667918B1 (en) | Methodand device of providing query-adaptive smart search service | |
JP2008257511A (en) | Technical term extraction device, method, and program | |
JP2006293616A (en) | Document aggregating method, and device and program | |
JP2005202924A (en) | Translation determination system, method, and program | |
Thanadechteemapat et al. | Thai word segmentation for visualization of thai web sites | |
JPH1145254A (en) | Document retrieval device and computer readable recording medium recorded with program for functioning computer as the device | |
CN108549730A (en) | A kind of search method and device of expert info | |
JP4059501B2 (en) | Natural language dictionary update device | |
JPH1145255A (en) | Document retrieval device and computer-readable recording medium where program making computer function as same device is recorded | |
JP4206266B2 (en) | Full-text search device, processing method, processing program, and recording medium | |
JP5633844B2 (en) | Paraphrase relation set acquisition apparatus, paraphrase relation set acquisition method, and program | |
JP2023057658A (en) | Information processing device, method executed by computer to provide information, and program | |
JP2003263458A (en) | Method and device for analyzing text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A711 Effective date: 20100226 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100301 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20100226 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20101027 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110112 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120319 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120417 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20120425 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120511 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20120425 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20120525 |
|
A072 | Dismissal of procedure [no reply to invitation to correct request for examination] |
Free format text: JAPANESE INTERMEDIATE CODE: A073 Effective date: 20120705 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120914 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130402 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130409 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5252410 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160426 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |