JP2005322120A - Extraction system - Google Patents

Extraction system Download PDF

Info

Publication number
JP2005322120A
JP2005322120A JP2004140840A JP2004140840A JP2005322120A JP 2005322120 A JP2005322120 A JP 2005322120A JP 2004140840 A JP2004140840 A JP 2004140840A JP 2004140840 A JP2004140840 A JP 2004140840A JP 2005322120 A JP2005322120 A JP 2005322120A
Authority
JP
Japan
Prior art keywords
input
pattern
extraction unit
extracted
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004140840A
Other languages
Japanese (ja)
Other versions
JP4593966B2 (en
Inventor
Maki Murata
真樹 村田
Sei Ba
青 馬
Tamotsu Shirato
保 白土
Hitoshi Isahara
均 井佐原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2004140840A priority Critical patent/JP4593966B2/en
Publication of JP2005322120A publication Critical patent/JP2005322120A/en
Application granted granted Critical
Publication of JP4593966B2 publication Critical patent/JP4593966B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To quickly and surely collect words in the field same to that of a small number of words input by a user. <P>SOLUTION: This extraction system is provided with input positive examples that are the plurality of small number of input words, a database D storing a fixed volume of document data, a pattern extraction part 1 for performing full text retrieval of the input positive examples that have been input in the database, and for extracting a pattern appeared in the periphery of the plurality of input positive examples, and a word extraction part 2 for performing full text retrieval of the pattern extracted by the pattern extraction part 1 in the database D, and for extracting an expression extracted by the pattern, and the word extraction part 2 is precluded from extracting an expression including a character type not existing in the input positive examples. <P>COPYRIGHT: (C)2006,JPO&NCIPI

Description

本発明は、ユーザが入力した少数の単語と同じ分野の用語を収拾して出力する抽出システムに関する。   The present invention relates to an extraction system that collects and outputs terms in the same field as a small number of words input by a user.

近年、質問応答処理システム(下記文献(1) 参照)において、固有名詞を取り出すような固有表現抽出の技術は必然的に必要な技術となっており、生物情報処理分野でタンパク質表現の抽出が重要視されそれに関する研究が盛んになっている(下記文献(2) 参照)ように、固有表現抽出(固有名詞、数字等の抽出)、専門用語抽出などの研究は非常に重要なものとなってきている。また、固有表現、専門用語に関する技術・考え方は、新しい分野に適用されつつあり、また、これからも適用されるもので、用語の種類は極めて多様なもの、多彩なものとなりつつある。   In recent years, in the question answering processing system (see reference (1) below), the technique of extracting proper expressions, such as extracting proper nouns, has become a necessary technique, and the extraction of protein expressions is important in the biological information processing field. As seen and research related to it is active (see reference (2) below), research on specific expression extraction (extraction of proper nouns, numbers, etc.) and technical term extraction has become very important. ing. In addition, technologies and ideas related to specific expressions and technical terms are being applied to new fields and will continue to be applied, and the types of terms are becoming extremely diverse and diverse.

文献(1):村田真樹“質問応答システムの現状と展望”電子情報通信学会学会誌, Vol.86, No.12, (2003),pp.959-963。   Reference (1): Maki Murata “Current Status and Prospect of Question Answering System” Journal of IEICE, Vol.86, No.12 (2003), pp.959-963.

文献(2):Tomohiro Mitsumori, Sevrani Fation, Masaki Murata, Kouichi Doi, and Hirohumi Doi, “Boundary correction of protein names adapting heuristic rules ”Fifth International Conference on Intelligent Text Processing and Computational Linguistics(CICLing 2004),(2004)。   Reference (2): Tomohiro Mitsumori, Sevrani Fation, Masaki Murata, Kouichi Doi, and Hirohumi Doi, “Boundary correction of protein names adapting heuristic rules” Fifth International Conference on Intelligent Text Processing and Computational Linguistics (CICLing 2004), (2004).

そこで、本発明では、多様な用語に関する、用語抽出の評価データを作成することができるものである。このデータでは、用語データも極力漏れの少ない形で作成されており、用語抽出の実験において、再現率・適合率を算出するなどの性能評価に用いることができるものである。本発明では、このデータの説明とこのデータを利用した簡単な用語抽出の評価実験について述べる。さらに、可視化機能を有する用語抽出の応用システムについても述べる。この応用システムは、ユーザが入力した数語の単語と同じ分野の用語を約20秒で収集して可視化して提示するシステムで実用的でかつ有益なものである。   Therefore, in the present invention, evaluation data for term extraction relating to various terms can be created. In this data, the term data is also created with as little leakage as possible, and can be used for performance evaluation such as calculating recall and precision in term extraction experiments. In the present invention, explanation of this data and a simple term extraction evaluation experiment using this data will be described. Furthermore, an application system for term extraction having a visualization function is also described. This application system is practical and useful for a system that collects, visualizes and presents terms in the same field as several words input by a user in about 20 seconds.

従来、少数の入力用語(入力正例)から、該入力用語と関連した用語を抽出することは、処理に時間がかかり、関連した用語を正確に抽出できないものであった。   Conventionally, extracting a term related to the input term from a small number of input terms (positive input example) takes time to process, and the related term cannot be extracted accurately.

また、近年、質問応答の研究が重要視されつつあるが、質問応答システムでは、例えば、国名と首都名の対のデータのような二項データ(表2参照)をあらかじめ具備していれば、そういう関係の二項データでの質問応答を高性能に処理することができるものであった(例えば、非特許文献1参照)。二項データは、そういうシステムにも利用できるし、また、そういうシステムのために作成する二項データ抽出システムがあった(例えば、非特許文献2、3参照)。
Michael Fleischman,Eduard Hovy,and Abdessamad Echihabi "Offline strategies for online question answering:Answering questions before they are asked" Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics (eds. Erhard Hinrichs and Dan Roth),(2003),pp.1-7 。 Sergey Brin "Extracting patterns and relations from the world wide web" WebDB Workshop at 6th International Conference on Extending Database Technology,EDBT'98,(1998)。 安藤まや, 関根聡, 石崎俊 "定型表現を利用した新聞記事からの下位概念単語の自動抽出" 情報処理学会自然言語処理研究会 2003-NL-157,(2003) 。
Also, in recent years, research on question answering is gaining importance, but in the question answering system, for example, if binomial data (see Table 2) such as data of pairs of country names and capital names is provided in advance, It has been possible to process a question response with binary data of such a relationship with high performance (for example, see Non-Patent Document 1). Binary data can be used in such a system, and there is a binary data extraction system created for such a system (for example, see Non-Patent Documents 2 and 3).
Michael Fleischman, Eduard Hovy, and Abdessamad Echihabi "Offline strategies for online question answering: Answering questions before they are asked" Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics (eds. Erhard Hinrichs and Dan Roth), (2003), pp.1-7. Sergey Brin "Extracting patterns and relations from the world wide web" WebDB Workshop at 6th International Conference on Extending Database Technology, EDBT'98, (1998). Maya Ando, Satoshi Sekine, Shun Ishizaki "Automatic Extraction of Subordinate Concept Words from Newspaper Articles Using Regular Expressions" IPSJ Natural Language Processing Study Group 2003-NL-157, (2003).

上記従来のものは、入力した複数の用語と同じ分野の語を高速に、しかも正確に収集できるものではなかった。   The above conventional ones cannot collect words in the same field as a plurality of input terms at high speed and accurately.

本発明は上記問題点の解決を図り、ユーザが入力した複数の語と同じ分野の用語を高速に、且つ正確に収集することを目的とする。   SUMMARY OF THE INVENTION An object of the present invention is to solve the above-described problems, and to quickly and accurately collect terms in the same field as a plurality of words input by a user.

図1は本発明の抽出システムである。図1中、1はパターン抽出部、2は用語抽出部、Dはデータベースである。   FIG. 1 shows an extraction system of the present invention. In FIG. 1, 1 is a pattern extraction unit, 2 is a term extraction unit, and D is a database.

本発明は、上記従来の課題を解決するため次のような手段を有する。   The present invention has the following means in order to solve the above conventional problems.

(1):入力する複数の少数の用語である入力正例と、一定量の文書データを格納したデータベースDと、入力された前記入力正例を前記データベースで全文検索し、複数の前記入力正例の周辺に出現したパターンを抽出するパターン抽出部1と、前記パターン抽出部1で抽出したパターンを前記データベースDで全文検索し、該パターンによって抽出される表現を抽出する用語抽出部2とを備え、前記用語抽出部2は、前記入力正例になかった字種を含む表現を抽出しないようにする。このため、入力正例と同一分野の用語を高速で、且つ確実に収集することができる。   (1): Input positive examples which are a plurality of small terms to be input, a database D storing a certain amount of document data, and a full-text search of the input input input examples in the database. A pattern extraction unit 1 for extracting patterns appearing around an example, and a term extraction unit 2 for performing a full text search on the database D for the pattern extracted by the pattern extraction unit 1 and extracting an expression extracted by the pattern The term extraction unit 2 does not extract an expression including a character type that was not included in the input example. For this reason, terms in the same field as the input positive example can be collected at high speed and reliably.

(2):入力する複数の少数の用語である入力正例と、一定量の文書データを格納したデータベースDと、入力された前記入力正例を前記データベースDで全文検索し、複数の前記入力正例の周辺に出現したパターンを抽出するパターン抽出部1と、前記パターン抽出部1で抽出したパターンを前記データベースDで全文検索し、該パターンによって抽出される表現を抽出すると同時にスコアScoreの大きい順にソートする用語抽出部2とを備え、前記用語抽出部2は、前記スコアScoreの算出に前記パターンで抽出される表現での入力正例の割合(pi )に前記パターンが出現した前記入力正例の個数(fi )を前記入力正例の個数(ni )で割った値を掛けた値(pi ×fi /ni )を用いる。このため、入力正例と同一分野の用語を確実に収集することができる。 (2): Full-text search is performed in the database D by inputting the input positive examples which are a plurality of small terms to be input, the database D storing a certain amount of document data, and the input positive examples. A pattern extraction unit 1 that extracts patterns appearing in the vicinity of the positive example, and a full-text search of the pattern extracted by the pattern extraction unit 1 in the database D, and an expression extracted by the pattern is extracted, and at the same time, the score Score is large A term extracting unit 2 that sorts in order, and the term extracting unit 2 includes the input in which the pattern appears in the ratio ( pi ) of input positive examples in the expression extracted by the pattern for the calculation of the score Score. the number of positive cases of (f i) using said input positive example of the number obtained by multiplying the value obtained by dividing by (n i) (p i × f i / n i). Therefore, it is possible to reliably collect terms in the same field as the input positive example.

(3):入力する複数の少数の用語である入力正例と、一定量の文書データを格納したデータベースDと、入力された前記入力正例を前記データベースDで全文検索し、複数の前記入力正例の周辺に出現したパターンを抽出するパターン抽出部1と、前記パターン抽出部1で抽出したパターンを前記データベースDで全文検索し、該パターンによって抽出される表現を抽出すると同時にスコアScoreの大きい順にソートする用語抽出部2とを備え、前記用語抽出部2は、前記入力正例になかった字種を含む表現を抽出しないようにすると共に、前記スコアScoreの算出に前記パターンで抽出される表現での入力正例の割合(pi )に前記パターンが出現した前記入力正例の個数(fi )を前記入力正例の個数(ni )で割った値を掛けた値(pi ×fi /ni )を用いる。このため、入力正例と同一分野の用語をより高速で、且つより確実に収集することができる。 (3): Input positive examples which are a plurality of small terms to be input, database D storing a certain amount of document data, and full-text search in the database D for the input correct input examples, and a plurality of the input A pattern extraction unit 1 that extracts patterns appearing in the vicinity of the positive example, and a full-text search of the pattern extracted by the pattern extraction unit 1 in the database D, and an expression extracted by the pattern is extracted, and at the same time, the score Score is large A term extraction unit 2 that sorts in order, the term extraction unit 2 is configured not to extract an expression including a character type that was not in the input example, and is extracted in the pattern for calculating the score Score multiplied by the value input the pattern to the rate of positive cases (p i) is divided by the emerging the input positive cases the number of (f i) the number of the input positive sample (n i) of the representation Value of (p i × f i / n i) is used. For this reason, terms in the same field as the positive input example can be collected at higher speed and more reliably.

(4):入力する複数の少数の用語である入力正例と、一定量の文書データを格納したデータベースDと、入力された前記入力正例を前記データベースDで全文検索し、複数の前記入力正例の周辺に出現したパターンを抽出するパターン抽出部1と、前記パターン抽出部1で抽出したパターンを前記データベースDで全文検索し、該パターンによって抽出される表現を抽出する用語抽出部2とを備え、前記用語抽出部2は、前記入力正例の末尾の形態素になかった品詞を含む表現を抽出しないようにする。このため、入力正例と同一分野の用語を高速で、且つ確実に収集することができる。   (4): input input examples which are a plurality of small terms to be input, database D storing a certain amount of document data, and full input search of the input input examples in the database D, and a plurality of the inputs A pattern extraction unit 1 for extracting patterns appearing in the vicinity of the positive example, a term extraction unit 2 for performing a full text search in the database D for the pattern extracted by the pattern extraction unit 1 and extracting an expression extracted by the pattern; The term extraction unit 2 does not extract an expression including a part of speech that was not in the last morpheme of the input positive example. For this reason, terms in the same field as the input positive example can be collected at high speed and reliably.

(5):入力する複数の少数の用語である入力正例と、一定量の文書データを格納したデータベースDと、入力された前記入力正例を前記データベースDで全文検索し、複数の前記入力正例の周辺に出現したパターンを抽出するパターン抽出部1と、前記パターン抽出部1で抽出したパターンを前記データベースDで全文検索し、該パターンによって抽出される表現を抽出する用語抽出部2とを備え、前記用語抽出部2は、前記入力正例の共通部分文字列を持たない表現を抽出しないようにする。このため、入力正例と同一分野の用語を高速で、且つ確実に収集することができる。   (5): Full-text search is performed in the database D by inputting the input positive examples which are a plurality of small terms to be input, the database D storing a certain amount of document data, and the input positive examples. A pattern extraction unit 1 for extracting patterns appearing in the vicinity of the positive example, a term extraction unit 2 for performing a full text search in the database D for the pattern extracted by the pattern extraction unit 1 and extracting an expression extracted by the pattern; The term extraction unit 2 does not extract an expression that does not have a common partial character string of the input positive example. For this reason, terms in the same field as the input positive example can be collected at high speed and reliably.

(6):前記(1)〜(5)の抽出システムにおいて、前記用語抽出部2が抽出しないようにする表現をユーザが指定できるようにする。このため、入力正例と同一分野の用語を高速で、より確実に収集することができる。   (6): In the extraction system of (1) to (5), the user can specify an expression that the term extraction unit 2 does not extract. For this reason, terms in the same field as the positive input example can be collected at high speed and more reliably.

(7):前記(1)〜(6)の抽出システムにおいて、前記入力正例として複数の少数の二項以上の用語データを入力し、前記用語抽出部2で二項以上の用語の表現を抽出する。このため、入力正例と同一分野の二項以上の用語を確実に収集することができる。   (7): In the extraction system of (1) to (6), a plurality of a few binary terms data is input as the positive input example, and the term extracting unit 2 expresses the terms of two or more terms. Extract. For this reason, it is possible to reliably collect two or more terms in the same field as the input positive example.

(8):入力する複数の少数の二項以上の用語データである入力正例と、一定量の文書データを格納したデータベースDと、入力された前記入力正例を前記データベースDで全文検索し、複数の前記入力正例の周辺に出現したパターンを抽出するパターン抽出部1と、前記パターン抽出部1で抽出したパターンを前記データベースDで全文検索し、該パターンによって抽出される二項以上の用語の表現を抽出すると同時にスコアの大きい順にソートする用語抽出部2とを備え、前記用語抽出部2は、前記スコアの算出に前記抽出した複数のパターンのデータの組み合わせを用いる。このため、的確なスコアが算出でき入力正例と同一分野の二項以上の用語を確実に収集することができる。   (8): A full-text search is performed in the database D, a database D storing a certain amount of document data, and a database D in which a plurality of input two or more term data are input. A pattern extraction unit 1 for extracting patterns appearing around the plurality of input positive examples, and a full text search of the pattern extracted by the pattern extraction unit 1 in the database D, and two or more terms extracted by the patterns A term extracting unit 2 that extracts term expressions and sorts them in descending order of score, and the term extracting unit 2 uses a combination of the extracted patterns of data for calculating the score. Therefore, an accurate score can be calculated, and two or more terms in the same field as the input positive example can be reliably collected.

(9):複数の少数の用語である入力正例を入力する手順と、一定量の文書データをデータベースDに格納する手順と、入力された前記入力正例を前記データベースで全文検索し、複数の前記入力正例の周辺に出現したパターンを抽出するパターン抽出手順と、前記抽出したパターンを前記データベースで全文検索し、該パターンによって抽出される表現を抽出する用語抽出手順と、前記入力正例になかった字種を含む表現を抽出しないようにする用語抽出手順とを、コンピュータに実行させるためのプログラムとする。このため、このプログラムをコンピュータにインストールすることで、入力正例と同一分野の用語を高速、且つ確実に収集できる抽出システムを容易に提供することができる。   (9): A procedure for inputting positive input examples which are a plurality of small terms, a procedure for storing a certain amount of document data in the database D, a full text search in the database, A pattern extraction procedure for extracting a pattern appearing in the vicinity of the input correct example, a term extraction procedure for full-text searching the extracted pattern in the database, and extracting an expression extracted by the pattern, and the input correct example A term extraction procedure for preventing an expression including a character type not found in the above from being extracted is a program for causing a computer to execute. Therefore, by installing this program in a computer, it is possible to easily provide an extraction system that can quickly and reliably collect terms in the same field as the input input example.

本発明によれば次のような効果がある。   The present invention has the following effects.

(1):パターン抽出部で入力された入力正例をデータベースで全文検索し、複数の前記入力正例の周辺に出現したパターンを抽出し、用語抽出部で前記パターン抽出部1で抽出したパターンをデータベースDで全文検索し、該パターンによって抽出される表現を抽出するとき、前記入力正例になかった字種を含む表現を抽出しないようにするため、入力正例と同一分野の用語を高速で、且つ確実に収集することができる。   (1): Patterns extracted by the pattern extraction unit 1 by a term extraction unit by performing full text search in a database and extracting patterns appearing around the plurality of input examples by the pattern extraction unit When searching for a full-text search in database D and extracting expressions extracted by the pattern, in order not to extract expressions containing character types that were not in the input positive examples, terms in the same field as the input positive examples are And can be collected reliably.

(2):パターン抽出部で入力された入力正例をデータベースDで全文検索し、複数の前記入力正例の周辺に出現したパターンを抽出し、用語抽出部で前記パターン抽出部で抽出したパターンを前記データベースDで全文検索し、該パターンによって抽出される表現を抽出すると同時にスコアScoreの大きい順にソートするとき、前記スコアScoreの算出に前記パターンで抽出される表現での入力正例の割合(pi )に前記パターンが出現した前記入力正例の個数(fi )を前記入力正例の個数(ni )で割った値を掛けた値(pi ×fi /ni )を用いるため、入力正例と同一分野の用語を確実に収集することができる。 (2): The full pattern search is performed in the database D by the input correct example input by the pattern extracting unit, the patterns appearing around the input correct examples are extracted, and the pattern extracted by the pattern extracting unit by the term extracting unit When the full-text search is performed in the database D and the expressions extracted by the pattern are extracted and simultaneously sorted in descending order of the score Score, the ratio of the positive examples of the expression extracted by the pattern in calculating the score Score ( A value (p i × f i / n i ) obtained by multiplying p i ) by the number (f i ) of the input positive examples in which the pattern appears divided by the number (n i ) of the input positive examples is used. Therefore, terms in the same field as the input positive example can be reliably collected.

(3):パターン抽出部で入力された入力正例をデータベースDで全文検索し、複数の前記入力正例の周辺に出現したパターンを抽出し、用語抽出部で前記パターン抽出部で抽出したパターンを前記データベースDで全文検索し、該パターンによって抽出される表現を抽出すると同時にスコアScoreの大きい順にソートするとき、前記入力正例になかった字種を含む表現を抽出しないようにすると共に、前記スコアScoreの算出に前記パターンで抽出される表現での入力正例の割合(pi )に前記パターンが出現した前記入力正例の個数(fi )を前記入力正例の個数(ni )で割った値を掛けた値(pi ×fi /ni )を用いるため、入力正例と同一分野の用語を高速で、且つより確実に収集することができる。 (3): Patterns extracted from the database D by full-text search in the database D, extracted patterns appearing around the plurality of input examples, and extracted by the pattern extraction unit by the term extraction unit Are retrieved from the database D, the expressions extracted by the pattern are extracted and simultaneously sorted in descending order of score Score, so that expressions including character types that are not in the input positive examples are not extracted, and In calculating the score Score, the number (f i ) of the input positive examples in which the pattern appears in the ratio (p i ) of the input positive examples in the expression extracted by the pattern is the number (n i ) of the input positive examples. Since the value (p i × f i / n i ) multiplied by the value divided by is used, terms in the same field as the input positive example can be collected at high speed and more reliably.

(4):パターン抽出部で入力された入力正例をデータベースDで全文検索し、複数の前記入力正例の周辺に出現したパターンを抽出し、用語抽出部で前記パターン抽出部で抽出したパターンを前記データベースDで全文検索し、該パターンによって抽出される表現を抽出するとき、前記入力正例の末尾の形態素になかった品詞を含む表現を抽出しないようにするため、入力正例と同一分野の用語を高速で、且つ確実に収集することができる。   (4): Patterns extracted by the full-text search in the database D by the pattern extraction unit, extracting patterns appearing around the plurality of input positive examples, and extracted by the pattern extraction unit by the term extraction unit In the same field as the input example, in order not to extract the expression including the part of speech that was not in the last morpheme of the input positive example when the database D is full-text searched and the expression extracted by the pattern is extracted Can be collected at high speed and reliably.

(5):パターン抽出部で入力された入力正例をデータベースDで全文検索し、複数の前記入力正例の周辺に出現したパターンを抽出し、用語抽出部で前記パターン抽出部で抽出したパターンを前記データベースDで全文検索し、該パターンによって抽出される表現を抽出するとき、前記入力正例の共通部分文字列を持たない表現を抽出しないようにするため、入力正例と同一分野の用語を高速で、且つ確実に収集することができる。   (5): The full pattern search is performed in the database D for the input positive example input by the pattern extraction unit, the patterns appearing around the plurality of input positive examples are extracted, and the pattern extracted by the pattern extraction unit by the term extraction unit In order to avoid extracting expressions that do not have a common partial character string of the input positive example when extracting the expression extracted by the pattern. Can be collected at high speed and reliably.

(6):用語抽出部が抽出しないようにする表現をユーザが指定するため、入力正例と同一分野の用語を高速で、より確実に収集することができる。   (6): Since the user designates an expression that the term extraction unit does not extract, terms in the same field as the input positive example can be collected at high speed and more reliably.

(7):入力正例として複数の少数の二項以上の用語データを入力し、用語抽出部で二項以上の用語の表現を抽出するため、入力正例と同一分野の二項以上の用語を確実に収集することができる。   (7): As a positive input example, a plurality of terms data of two or more terms are input, and the term extraction unit extracts expressions of two or more terms, so that two or more terms in the same field as the input positive example Can be collected reliably.

(8):パターン抽出部で入力された入力正例をデータベースDで全文検索し、複数の前記入力正例の周辺に出現したパターンを抽出し、前記パターン抽出部で抽出したパターンを前記データベースDで全文検索し、用語抽出部で該パターンによって抽出される二項以上の用語の表現を抽出すると同時にスコアの大きい順にソートするとき、前記スコアの算出に前記抽出した複数のパターンのデータの組み合わせを用いるため、的確なスコアが算出でき、入力正例と同一分野の二項以上の用語を確実に収集することができる。   (8): The full text search is performed in the database D for the input positive examples input by the pattern extraction unit, the patterns appearing around the input positive examples are extracted, and the patterns extracted by the pattern extraction unit are extracted from the database D When the full-text search is performed and the expression of two or more terms extracted by the pattern is extracted at the same time by the term extraction unit and simultaneously sorted in descending order of score, the combination of the extracted data of the plurality of patterns is used for the calculation of the score. Therefore, an accurate score can be calculated, and two or more terms in the same field as the input positive example can be reliably collected.

§1:用語抽出の説明
(1):抽出システムの説明
図1は本発明の抽出システムの説明図である。図1において、用語を抽出する抽出システムには、パターン抽出部1、用語抽出部2、データベースDが設けてある。
§1: Explanation of term extraction (1): Explanation of extraction system FIG. 1 is an explanatory diagram of the extraction system of the present invention. In FIG. 1, an extraction system for extracting terms includes a pattern extraction unit 1, a term extraction unit 2, and a database D.

パターン抽出部1は、(入力手段等から)入力された少数の正例(用語)をデータベースDで全文検索し、該少数の正例の周辺に出現したパターンci を抽出するものである。用語抽出部2は、抽出したパターンci をデータベースDで全文検索し、パターンci によって抽出される表現expを抽出すると同時に、抽出した表現expをScore(スコア;評価値)の値の大きい順にソートして(出力手段等に)出力するものである。データベースDは、例えば、新聞、雑誌、Webデータ(ネットワーク上のデータ)等から抽出したデータ(一定量の文書データ)を格納するものである。 Pattern extraction unit 1, extracts a pattern c i and full-text search, which appeared around the positive examples of the at number (from the input means or the like) a few positive cases entered (terms) in the database D. The term extraction unit 2 extracts the pattern c i and full-text search in the database D, at the same time extracts the representation exp extracted by the pattern c i, extracted expression exp Score; in the order of decreasing (scoring value) It sorts and outputs (to an output means etc.). The database D stores data (a fixed amount of document data) extracted from, for example, newspapers, magazines, Web data (data on the network), and the like.

(フローチャートによる説明)
図2は用語抽出処理フローチャートである。以下図2の処理S1〜S3に従って説明する。
(Explanation based on flowchart)
FIG. 2 is a term extraction process flowchart. Hereinafter, description will be given according to the processing S1 to S3 of FIG.

S1:パターン抽出部1に、入力手段から少数の入力正例が入力される。   S1: A small number of positive examples are input to the pattern extraction unit 1 from the input means.

S2:パターン抽出部1で、入力正例をデータベースDで全文検索し、複数の入力正例の周辺に出現したパターンをci として抽出する。(周辺に出現するパターンの定義は適宜行なう。)
S3:用語抽出部2で、パターン抽出部1で抽出したパターンci をデータベースDで全文検索し、パターンci によって抽出される表現expを抽出すると同時に、抽出した表現expをScoreの値の大きい順にソートして出力手段に出力する。
S2: the pattern extraction unit 1, enter a positive example full-text search database D, and extracts the appearance pattern around the plurality of input positive cases as c i. (Definitions of patterns that appear in the vicinity are made as appropriate.)
S3: The term extraction unit 2, a pattern c i extracted by the pattern extraction unit 1 and full-text search in the database D, at the same time extracts the representation exp extracted by the pattern c i, extracted expression exp value Score Big Sort in order and output to output means.

(パターンの例の説明)
1) 国名Aと首都名Bの対(二項データ)の場合の例
・パターン抽出部1に入力される入力正例の例:
日本_東京
中国_北京
韓国_ソウル
シンガポール_シンガポール
ロシア_モスクワ
・パターン抽出部1が抽出する抽出パターンの例:
、Aの首都B
Aの首都B
A・B市に
る。〔B支局〕A
B支局〕A外務省
ただし、左右にA、Bがある場合は、さらにその左右は平仮名文字であることが条件となる。
(Description of pattern example)
1) Example of country name A and capital name B pair (binary data) Example of correct input example input to pattern extraction unit 1:
Japan Tokyo
China_Beijing
Korea_Seoul
Singapore_Singapore
Russia_Moscow ・ Examples of extraction patterns extracted by the pattern extraction unit 1:
A capital B
A capital B
In AB city
The [B branch office] A
B branch office] A Ministry of Foreign Affairs However, if there are A and B on the left and right, the left and right must be hiragana characters.

2) 国名Aの場合の例
・入力正例:
日本
中国
朝鮮
タイ
韓国
・抽出パターンの例(1) :(両端とも利用、スピードは遅いが性能は良い)
日、A軍
人のA人女性
日本はAと
〔A通信・
省。駐A大使な
・抽出パターンの例(2) :(片方のみ利用、片方は平仮名文字、スピードは早い)
[..A国]。
2) Example for country A ・ Input example:
Japan
China
Korea
Thailand
Korea ・ Example of extraction pattern (1): (Used at both ends, slow speed but good performance)
Sun, A army
A female
Japan is A
[A communication
Ministry. Ambassador to A ・ Example of extraction pattern (2): (Only one is used, one is Hiragana, and the speed is fast)
[..A country].

語。A
[..A国]側
[..A国]伝来
A語入力
ただし、[..A..]は、それ自体が国名Aにマッチすることを意味する。例えば[A国]だとそのマッチした用語の最後が国であることを意味する。
word. A
[..A country] side
[..A country]
A word input However, [..A ..] means that country name A itself matches. For example, [Country A] means that the end of the matched term is the country.

(2):用語抽出用評価データの作成の説明
本発明では、抽出システムの精度を求めるために、用語抽出用評価データ(正解データ)を作成した。作成したデータの例を表1と表2に示している。表1は、国名に関するデータで国名を国ごとに行に分けて格納しており、行頭を代表形としてそれ以外は代表形の異表記として同じ行に格納している。表2は、国名と首都名の対のデータで表1と同じく国ごとにデータを行に分けて先頭を代表形としてそれ以外は代表形の異表記として同じ行に格納している。
(2): Description of creation of term extraction evaluation data In the present invention, term extraction evaluation data (correct data) was created in order to determine the accuracy of the extraction system. Examples of the created data are shown in Tables 1 and 2. Table 1 shows data relating to country names, which are divided into rows for each country, and the head of the row is a representative form, and the rest is stored in the same line as a representation of the representative form. Table 2 is a pair of country name and capital name data. As in Table 1, the data is divided into lines for each country, and the head is represented as a representative form, and the rest is stored in the same line as a representation of the representative form.

本発明では、表1と表2をそれぞれ一項データ、二項データと呼ぶ。それぞれここで示したようなものを58種類作った。全データの規模を表3に示している。代表形数と代表形+異表記数はそれらの延べ数である。   In the present invention, Table 1 and Table 2 are referred to as one-term data and two-term data, respectively. 58 types of each of these were made. Table 3 shows the scale of all data. The representative form number and the representative form + annotated number are the total number of them.

作った58種類のデータは、「太陽系惑星」「衛星」「十二支」「祝日」「スペースシャトル」「大河ドラマ」「相撲関連」「花の名称」「サッカー守備位置」「プロ野球選手名」「世界遺産」「村名と県名の対」「祝日と日付の対」「太陽系惑星と衛星の対」「作曲家と音楽作品の対」などと多様なものである。

表1:一項データの例( 国名データ)
┌────────────────────────┐ │アイスランド アイスランド共和国 ISL │
│アイルランド アイルランド共和国 IRL │
│アゼルバイジャン アゼルバイジャン共和国 AZE│
│アゾレス諸島 │
│アドゥイゲ アドゥイゲ共和国 │
│アフガニスタン アフガニスタン共和国 │
│アメリカ アメリカ合衆国 米国 米 USA │
│... │
└────────────────────────┘
The 58 types of data created are "Solar system planets""Satellite""Zodiac""Holidays""Spaceshuttle""Taigadrama""Sumo-related""Flowername""Soccer defensive position""Professional baseball player name"" World heritage, village name and prefecture name pairs, holidays and date pairs, solar system planets and satellite pairs, composers and music pairs, etc.

Table 1: Example of unary data (country name data)
┌────────────────────────┐ │Iceland Iceland ISL │
│Ireland Republic of Ireland IRL │
│Azerbaijan Republic of Azerbaijan AZE│
│ Azores │
│Aduige Aduige Republic │
│Afghanistan Afghanistan │
│USA USA USA USA │
│ ... │
└────────────────────────┘

Figure 2005322120
表3:データの規模
┌─────────┬─────┬─────┐
│ │一項データ│二項データ│
├─────────┼─────┼─────┤
│データの種類の数 │ 58│ 58│
│代表形数 │ 17696│ 19387│
│代表形+異表記数 │ 26728│ 106850│
└─────────┴─────┴─────┘
(データの作成方法は以下の方法をとった)
a)単一の辞書・参考書などから手入力する。(例:太陽系惑星、衛星、十二支、祝日、スペースシャトル)
b)Webのサイトから入手する。(例:大河ドラマの名称)
c)複数の辞書・参考書またWebのサイトから得た情報を組み合わせる。(例:世界の山、花の名称、商品名)
d)その分野の知識が豊富な人間が知識と記憶によって作成する。(例:サッカー守備位置)
(データの補充、異表記の作成には以下の方法をとった)
a)規則性を持った異表記を自動で生成する。(例:人名から姓を取り出す)
b)規則性がない異表記をWebなどから取得する。(例:世界の山,花の名称,商品名)
c)規則性がない異表記を思いつく範囲で入力する。(例:相撲決り手、星座)
d)その分野の知識が豊富な人間が知識と記憶によって作成する。(例:サッカー守備位置)
データの作成の際には、それぞれのデータごとにその収集方法、異表記作成方法、代表形の基準の定義、異表記の基準の定義、その他のコメント、代表形の網羅度の情報を作成している。例えば、「国名データ」の代表形の基準の定義は「正式名称ではなく最も一般的に使用されるもの(例:フランス共和国→代表形「フランス」)」と記載されている。
Figure 2005322120
Table 3: Scale of data ┌─────────┬─────┬─────┐
│ │ One-term data │ Two-term data │
├─────────┼─────┼┼─────┤
│ Number of data types │ 58│ 58│
│Representative number │ 17696│ 19387│
│Representative type + number of different notations │ 26728│ 106850│
└─────────┴─────┴┴─────┘
(The following method was used to create the data)
a) Enter manually from a single dictionary or reference book. (Example: Solar system planets, satellites, zodiac, holidays, space shuttle)
b) Obtain from the Web site. (Example: Taiga drama name)
c) Combining information obtained from multiple dictionaries, reference books and websites. (Example: Mountains in the world, flower names, product names)
d) Created by knowledge and memory by a person with a wealth of knowledge in the field. (Example: soccer defensive position)
(The following methods were used to replenish data and create different notations)
a) Annotation with regularity is automatically generated. (Example: Extract last name from person's name)
b) Acquiring different notation with no regularity from the Web or the like. (Example: world mountains, flower names, product names)
c) Enter an illegitimate notation that is not regular. (Example: Sumo finalist, constellation)
d) Created by knowledge and memory by a person with a wealth of knowledge in the field. (Example: soccer defensive position)
At the time of data creation, for each data, the collection method, different notation creation method, definition of the standard for the representative form, definition of the standard for the different form, other comments, information on the coverage of the representative form are created. ing. For example, the definition of the criterion of the representative form of “country name data” is described as “not the official name but the most commonly used one (eg, France → representative form“ France ”)”.

代表形の網羅度としては、ほぼ100%網羅している、網羅していないなどの情報を与えている。本発明で扱った用語の分類は国名や首都名や太陽系惑星など、用語の個数に限りがあることがわかっているものが多く、それらの場合はいつの時点での用語であるのかをはっきりさせておけば、ほぼ100%網羅しているであろうデータを作ることができる。   As the degree of coverage of the representative form, information such as almost 100% coverage or not coverage is given. Many of the terms used in the present invention are known to have a limited number of terms, such as country names, capital names, and solar system planets. If you do, you can create data that will be almost 100% covered.

このため、本発明のデータは、用語抽出の適合率・再現率の精度の計算に用いることができる。データの種類の方は58種類と少なく、世の中の用語の種類すべてから比べるとかなり小さいが、そのデータの種類を犠牲にして、容易に収集できかつある特定の分野内の用語に特定することでその分野内での網羅性をあげて適合率・再現率の精度計算可能なデータを作成しているのである。   For this reason, the data of the present invention can be used for calculation of precision of precision and recall of term extraction. There are 58 types of data, which is very small compared to all types of terms in the world, but at the expense of the type of data, it can be easily collected and specified in terms within a specific field. They are creating data that can be used to calculate the precision of precision and recall with the completeness within the field.

また、本発明の用語データは普遍的なものであり、用語の自動抽出対象のデータがいかなるものであっても利用できる評価用データである。例えば、毎日新聞から抽出した結果をこのデータで評価をしてもよいし、またWebから抽出した結果をこのデータで評価をしてもよい。   In addition, the term data of the present invention is universal, and is evaluation data that can be used regardless of what data is subject to automatic term extraction. For example, the result extracted from the daily newspaper may be evaluated with this data, and the result extracted from the Web may be evaluated with this data.

一項データは普通の用語リストであるが、二項データは用語の対のデータであり、用語リストというよりは知識のようなものに近い。近年、質問応答の研究が重要視されつつあるが、質問応答システムでもこういう二項データをあらかじめ具備していればそういう関係の二項データでの質問応答を高性能に処理することができる。二項データはそういうシステムにも利用できるし、またそういうシステムのために作成する二項データ抽出システムの評価データにも利用できるのである。   Unary data is an ordinary term list, but binomial data is term pair data, which is more like knowledge than a term list. In recent years, research on question answering is gaining importance. If a question answering system is equipped with such binomial data in advance, the question answering with such relational binomial data can be processed with high performance. Binary data can be used for such a system, and can also be used for evaluation data of a binary data extraction system created for such a system.

(3):用語抽出の具体的な説明
前記(2)により評価データ(正解データ)ができたので、これを使った簡単な用語抽出実験を行なってみた。この実験では網羅性が「ほぼ100%網羅している」となっているデータのうち実験できるように代表形が10個以上あったデータ(一項データで40種類、二項データで44種類)を用いた。ここで行なう実験では、少数の正例を使って学習し多くの正例を取ってくる正例のみによる学習を利用した(例えば、アメリカ、日本等の代表的な少数の国を入力し、他の国を抽出できるかどうかの実験)。
(3): Specific Explanation of Term Extraction Since the evaluation data (correct data) has been created according to (2) above, a simple term extraction experiment using this was performed. In this experiment, the data whose coverage is “almost 100% covered” has 10 or more representative forms so that the experiment can be performed (40 types for 1-term data, 44 types for 2-term data) Was used. In this experiment, we used learning by using only positive examples that were learned using a small number of positive examples and picked up many positive examples. Experiment to see if the country can be extracted).

ここでの実験では異表記は正例とせず代表形のみを正例とした。入力の少数の正例としては、評価データの代表形で毎日新聞での頻度の多い方から有名そうな用語を人手で五つ選んだ。CD毎日新聞(コンパクトディスクに記録された毎日新聞)1991−2000年度版を正例の取得対象のデータ(データベース)Dとした。抽出の手順は以下のとおりである。   In this experiment, different notation is not a positive example, but only a representative form is a positive example. As a few positive examples of input, we selected five terms that are famous from the most frequently used daily newspapers as representative examples of evaluation data. CD Mainichi Newspaper (Mainichi Newspaper recorded on a compact disc), 1999-2000 version, was designated as data (database) D for acquisition. The extraction procedure is as follows.

(1) 少数の正例をデータベースDで全文検索し、複数の正例の周辺に出現したパターンをci として抽出する(正例の周辺に出現するパターンがその正例だけ(一個)の場合は抽出しない)。(周辺に出現するパターンの定義は適宜行なう)。周辺に出現するパターンとして例えば、正例の前後(左右)3文字列を用いる場合は、前後それぞれ文字が1個、2個、3個の場合があるので、1個の正例で9通りのパターンができることになる。また、正例(自分自身)を含めたパターンとすることもできる。 (1) a small number of positive cases full-text search database D, if the appearance pattern around the plurality of primary example is extracted as c i (a pattern appearing on the periphery of the positive examples only that positive cases (one) Is not extracted). (Definitions of patterns that appear in the vicinity are made as appropriate). For example, when using three character strings before and after (left and right) of the positive example as patterns appearing in the periphery, there are cases where there are one, two, and three characters respectively before and after, so there are nine patterns in one positive example. A pattern can be made. Moreover, it can also be set as the pattern including a positive example (self).

(2) 次に抽出したパターンci をデータベースDで全文検索し、パターンci によって抽出される表現expを抽出する。 (2) Next, full-text search is performed on the extracted pattern c i in the database D, and the expression exp extracted based on the pattern c i is extracted.

(3) 抽出した表現expをScoreの値の大きい順にソートして出力する。   (3) The extracted expression exp is sorted and output in descending order of the Score value.

Scoreとして、以下のものがある。   There are the following as Score.

・手法1(決定リスト法)
手法1は、抽出した表現expのScoreとして、パターンci の中でpi が最も大きかったパターンのpi を使用するもの。
・ Method 1 (decision list method)
Method 1 as Score of the extracted expression exp, those using p i of the largest was pattern p i in the pattern c i.

Figure 2005322120
・手法2(ベイズ法)
手法2は、抽出した表現expのScoreとして、全てのパターンci のpi を掛け合わせたものを使用する。
Figure 2005322120
・ Method 2 (Bayes method)
Method 2 uses a score obtained by multiplying all the patterns c i by p i as the score of the extracted expression exp.

Figure 2005322120
・手法3(類似度に基づく方法)
手法3は、抽出した表現expのScoreとして、抽出されたパターンの個数(総数)を用いる。つまり、多くのパターンで抽出されたものほどScoreを大きくする。
Figure 2005322120
・ Method 3 (method based on similarity)
Method 3 uses the number (total number) of extracted patterns as the score of the extracted expression exp. That is, the score is increased as the number of patterns extracted is increased.

Figure 2005322120
・手法4(下記研究(3) 参照)
手法4は、抽出した表現expのScoreとして、pi の重みを加えた抽出されたパターンの個数を用いるものである。
Figure 2005322120
・ Method 4 (Refer to Research (3) below)
Method 4 as Score of the extracted expression exp, is to use a number of the extracted pattern plus the weight of p i.

Figure 2005322120
研究(3):Ellen Riloff and Rosie Jones "Learning dictionaries for information extraction by multi-level bootstrapping" Proceedings of AAAI-99,(1999)。
Figure 2005322120
Study (3): Ellen Riloff and Rosie Jones "Learning dictionaries for information extraction by multi-level bootstrapping" Proceedings of AAAI-99, (1999).

・手法5(下記文献(4) 参照)
手法5は、抽出した表現expのScoreとして、少なくとも一つは確からしくなる値を用いるものである。
・ Method 5 (Refer to the following document (4))
Method 5 uses at least one value that is likely to be the score of the extracted expression exp.

Figure 2005322120
上記式(5) は、確からしくない(1−pi )を掛け合わせることで一つも確からしくないことになり、そして、これを1から引くと少なくとも一つは確からしくなる。
Figure 2005322120
In the above formula (5), by multiplying (1− pi ) which is not certain, one is not certain, and when subtracting this from 1, at least one is certain.

文献(4):村田真樹, 井佐原均 "同義テキストの照合に基づくパラフレーズに関する知識の自動獲得" 情報処理学会自然言語処理研究会 2001-NL-142,(2001) 。   Reference (4): Masaki Murata and Hitoshi Isahara "Automatic Acquisition of Knowledge about Paraphrases Based on Matching Synonymous Texts" IPSJ SIG 2001-NL-142, (2001).

ただし、fi はパターンci が出現した入力正例の個数で、pi はパターンci で抽出される表現での入力正例の割合(確からしさ、すなわち確信度となる)である。手法1、2、4、5ではScoreが同じときは、手法3のScoreでソートし、手法3では手法5のScoreでソートする。 However, f i is the number of input positive examples in which the pattern c i appears, and p i is the ratio of input positive examples in the expression extracted by the pattern c i (the probability, that is, the certainty level). In the methods 1, 2, 4, and 5, when the score is the same, the score is sorted by the score of the method 3, and in the method 3, the score is sorted by the score of the method 5.

一項データを使って、パターンとしては、正例の左と先頭のいずれかを含む1〜3文字と右側のそれの組み合わせを使って実験を行なった。その結果を表4に示す。   Using one-term data, an experiment was performed using a combination of 1 to 3 characters including either the left or the head of the positive example and that on the right as a pattern. The results are shown in Table 4.

Figure 2005322120
表4において、APは、情報検索(下記文献(5) 参照)で用いるaverage precision の平均であり、正解記事を上位から取ったたびに求めた適合率の平均である。本願の内容の場合は、正解正例分を上位から取ったたびに求めた適合率の平均(ただし、入力正例は正解正例から除く)である。
Figure 2005322120
In Table 4, AP is an average of average precision used in information retrieval (see the following document (5)), and is an average of relevance ratios obtained every time correct articles are taken from the top. In the case of the contents of the present application, it is the average of the relevance ratios obtained every time the correct correct example is taken from the top (however, the input correct example is excluded from the correct correct example).

RPは、r-precision の平均であり、正解記事数分だけを検索した時に正解の記事が含まれている割合である。本願の内容の場合は、正解正例分だけを抽出した時に正解正例が含まれている割合である。なお、適合率は正解率と同じであり、正解正例が含まれる割合のことである。TPは、上位5個での精度の平均である。   RP is an average of r-precision, and is a ratio of including correct articles when searching for the number of correct articles. In the case of the contents of the present application, it is a ratio in which correct correct examples are included when only correct correct examples are extracted. The relevance rate is the same as the correct answer rate, and is a ratio including correct correct examples. TP is the average accuracy of the top five.

(制約に基づく抽出方法の説明)
(a)字種とKRを利用する方法
表4の例で抽出方法には、さらに字種とKRを利用する方法を用いた。ここで、字種とは、漢字、カタカナ、ひらがな、記号、数字などであり、例えば英語だと、アルファベット、数字、記号、単語の先頭が大文字かどうかなどである。
(Explanation of extraction method based on constraints)
(A) Method of Using Character Type and KR For the extraction method in the example of Table 4, a method of further using character type and KR was used. Here, the character types are kanji, katakana, hiragana, symbols, numbers, and the like. For example, in English, alphabets, numbers, symbols, and whether the beginning of a word is capitalized or the like.

字種を利用する方法では、入力した少数(この例では5個)の用語になかった字種を含む表現を抽出しない方法である。例えば、入力した5個の用語にひらがなが無かった場合は、ひらがなを含む表現を抽出しないようにするものである。   The method using the character type is a method that does not extract an expression including a character type that was not included in a small number of input terms (five in this example). For example, when there are no hiragana characters in five input terms, an expression including hiragana characters is not extracted.

KRを利用する方法では、pi をpi * fi / ni に置き換えた方法である。この方法の利点は、pi が同じでもfi / ni の値により確信度を変えることができるものである。ただし、ni は入力正例の個数で、手法3のときはKRの場合は1をfi に置き換えた。なお、評価では抽出した結果で正例の異表記は除いた。また、字種による方法以外にも次のような方法もある。 In the method using KR, p i is replaced with p i * f i / n i . The advantage of this method is that the certainty factor can be changed by the value of f i / n i even if p i is the same. However, n i is the number of positive input examples, and in the case of method 3, in the case of KR, 1 is replaced with f i . In the evaluation, the positive results were excluded from the extracted results. In addition to the character type method, there are also the following methods.

(b)品詞に基づく方法
品詞に基づく方法では、例えば、入力表現に名詞しかない場合は出力時に名詞以外の表現を省く、また、入力表現に形容詞しかない場合は出力時に形容詞以外の表現を省くというものである。さらに、表現が複数の単語で構成されている場合は、末尾の単語(形態素)の品詞の情報を使うようにすることができる。
(B) Method based on part of speech In the method based on part of speech, for example, if there is only a noun in the input expression, the expression other than the noun is omitted at the time of output, and if the input expression only has an adjective, the expression other than the adjective is omitted at the time of output. That's it. Furthermore, when the expression is composed of a plurality of words, the part of speech information of the last word (morpheme) can be used.

(例による説明1)
入力正例として次のものであった場合、
「楽しい」「哀しい」「嬉しい」「とても嬉しい」「とても哀しい」
抽出物として次のものが得られる場合、
「とても」「新しい」「美しい」「とても美しい」「とても難しい」
上記抽出物の表現中の末尾の単語の品詞を推定し、上記入力正例では、末尾の単語の品詞は「形容詞」しかないので、抽出物の中で、末尾の単語の品詞が「形容詞」でない、副詞(「とても」)を除いて出力するようにする。
(Description 1 by example)
If the input example is:
“Fun” “sad” “happy” “very happy” “very sad”
If the following is obtained as an extract:
"Very""New""Beautiful""Verybeautiful""Verydifficult"
Estimate the part of speech of the last word in the expression of the above extract, and in the above input example, the part of speech of the last word is only “adjective”, so the part of speech of the last word in the extract is “adjective”. Not output adverb ("very").

(例による説明2)
入力正例として次のものであった場合、
「楽しい」「歓喜」「悲痛」「悲しい」
上記入力正例では、「形容詞」と「名詞」のように複数種類があった場合は、それらの品詞は出力し、それらの品詞以外の表現は出力しないようにする。
(Description 2 by example)
If the input example is:
"Fun""joy""sadness""sad"
In the above input example, when there are multiple types such as “adjective” and “noun”, those parts of speech are output, and expressions other than those parts of speech are not output.

なお、前述のような末尾の単語(形態素)の品詞の推定等の品詞情報を得るためには、次のような形態素解析システム(形態素解析手段)が必要になる。   In order to obtain part-of-speech information such as the estimation of the part-of-speech of the last word (morpheme) as described above, the following morpheme analysis system (morpheme analysis means) is required.

・形態素解析システムの説明
日本語を単語に分割するために、用語抽出部2で形態素解析システムを利用することが必要になる。ここではChaSenについて説明する(奈良先端大で開発されている形態素解析システム茶筌http://chasen.aist-nara.ac.jp/index.html.jp で公開されている)。
-Description of morphological analysis system In order to divide Japanese into words, it is necessary to use the morphological analysis system in the term extraction unit 2. Here, ChaSen will be explained (published on the morphological analysis system Chasen http://chasen.aist-nara.ac.jp/index.html.jp developed at Nara Institute of Technology).

これは、日本語文を分割し、さらに、各単語の品詞も推定してくれる。例えば、「学校へ行く」を入力すると以下の結果を得ることができる。   This splits the Japanese sentence and also estimates the part of speech of each word. For example, if “go to school” is entered, the following results can be obtained.

学校 ガッコウ 学校 名詞−一般
へ ヘ へ 助詞−格助詞−一般
行く イク 行く 動詞−自立 五段・カ行促音便 基本形
EOS
このように各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。
School Gacco School Noun-General To He To particle-Case particle-General Go Iku Go Verb-independence
In this way, each line is divided so that one word is included, and reading and part-of-speech information are given to each word.

(c)共通部分文字列に基づく方法
例えば、入力表現がすべて同じ「しい」という共通末尾表現を持っている場合、出力時に「しい」を持たない表現を省くものである。なお、これは末尾だけでなく、先頭の文字列でも同様にできる。
(C) Method based on common partial character string For example, when input expressions all have the same common end expression “Shi”, an expression that does not have “Shi” is omitted at the time of output. This can be done not only at the end but also at the top character string.

(例による説明)
入力正例として次のものであった場合、
「悲しい」「楽しい」「嬉しい」
抽出されるものが次の場合、
「歓喜」「悲痛」「美しい」「新しい」
上記入力正例の共通部分文字列が「しい」なので、「しい」を持たない「歓喜」と「悲痛」を削除して出力するものである。
(Description by example)
If the input example is:
"Sad""fun""happy"
If the following is extracted:
"Joy""Sorrow""Beautiful""New"
Since the common partial character string of the above input example is "Shi", "Joy" and "Sadness" without "Shi" are deleted and output.

(d)ユーザによる制約の指定
今までは、入力表現から自動で制約を得る方法でしたが、この制約はユーザにさせることもできる。例えば、ユーザが「漢字のみ」というオプションを選択すると出力では漢字以外の字種を用いた表現を出力しないことができる。また、ユーザが末尾は「しい」というオプションを選択すると出力では「しい」を末尾に持たない表現を出力しないようにすることができる。さらに、ユーザが品詞は名詞というオプションを選択すると出力では名詞以外の表現を出力しないようにする。
(D) Specification of constraint by user Up to now, it has been a method of automatically obtaining a constraint from an input expression, but this constraint can be made to be made by the user. For example, when the user selects the option of “Kanji only”, the output using a character type other than Kanji can not be output. In addition, when the user selects the option “Shi” at the end, it is possible to prevent the output not having “Shi” at the end in the output. Furthermore, when the user selects the option that the part of speech is a noun, the output is made so that expressions other than the noun are not output.

なお、少数の正例を入力する研究には既に前記研究(3) があり、この研究(3) では抽出方法にブートストラップのアルゴリズムをくっつけて、入力正例を増やすことで精度高くより多くの用語を抽出する方法を使っている。本発明の方法の精度もブートストラップを使うことで改善されるだろう。研究(3) として手法4があるが、その式を少し変えた式やいろいろな工夫をした手法の結果も、評価用データがあるので比較できるのである。本発明の比較では、手法5で字種・KRを利用する方法が最も良いことがわかる。   In addition, there is already research (3) in which a small number of positive examples are entered.In this research (3), a bootstrap algorithm is added to the extraction method to increase the number of positive examples and increase the accuracy. It uses a method of extracting terms. The accuracy of the method of the present invention will also be improved by using bootstrap. There is method 4 as research (3), but the result of the method which changed the formula a little and the method which made various ideas can be compared because there is the data for evaluation. In the comparison of the present invention, it is understood that the method 5 using the character type / KR is the best.

文献(5):村田真樹, 馬青, 内元清貴, 小作浩美, 内山将夫, 井佐原均 "位置情報と分野情報を用いた情報検索" 言語処理学会誌, Vol.7,No.2,(2000) 。   Reference (5): Masaki Murata, Ma Aoi, Kiyotaka Uchimoto, Hiromi Osaku, Masao Uchiyama, Hitoshi Isahara "Information Retrieval Using Location Information and Field Information" Journal of Language Processing Society, Vol.7, No.2, ( 2000).

次に二項データを使った実験をした。パターンとしては、二項データのどちらが先に出現したかを示す正例の順序と一つ目に出現した正例の左と先頭のいずれかを含む1〜3文字と二つの正例の間の表現の組み合わせと正例の順序と二つ目に出現した正例の右と後部のいずれかを含む1〜3文字と二つの正例の間の表現の組み合わせを用いた。   Next, an experiment using binomial data was performed. As a pattern, the order of the positive example indicating which of the binomial data first appears, and between the first and second positive examples including one of the left and top of the first positive example The combination of expressions, the order of positive examples, and the combination of expressions between 1 to 3 characters including either the right or the rear of the second positive example and the two positive examples were used.

正例の単語の境界が定まるように正例の左側か右側でパターンの文字列を取り出さない場合は、それらは平仮名文字であることをパターンの条件とした。こちらの実験では手法3で字種・KRを利用する方法の精度が最も良くAPは0.026 、RPは0.040 、TPは0.141 であった。   When the character string of the pattern is not extracted on the left or right side of the positive example so that the boundary of the word of the positive example is determined, the pattern condition is that they are hiragana characters. In this experiment, the accuracy of the method 3 using the character type and KR was the best, AP was 0.026, RP was 0.040, and TP was 0.141.

なお、抽出システムを高速化するため、パターンci を「入力正例の左と先頭のいずれかを含む1〜3文字でかつ入力正例の右が平仮名文字であるもの、または、入力正例の右と後部のいずれかを含む1〜3文字でかつ入力正例の左が平仮名文字であること」とすることができる。 In order to speed up the extraction system, the pattern ci is defined as “one to three characters including either the left or the beginning of the input example and the right of the input example is a hiragana character, or the input example 1 to 3 characters including either the right or the rear of the character and the left of the input example is a hiragana character.

§2:二次元表示の説明
(1):表示システムの説明
図3は本発明の表示システムの説明図である。図3において、表示システムには、パターン抽出部1、用語抽出部2、用語表示部3、可視化装置4、データベースDが設けてある。
§2: Description of two-dimensional display (1): Description of display system FIG. 3 is an explanatory diagram of the display system of the present invention. In FIG. 3, the display system includes a pattern extraction unit 1, a term extraction unit 2, a term display unit 3, a visualization device 4, and a database D.

パターン抽出部1は、(入力手段等から)入力された少数の正例(用語)をデータベースDで全文検索し、該少数の正例の周辺に出現したパターンci を抽出するものである。用語抽出部2は、抽出したパターンci をデータベースDで全文検索し、パターンci によって抽出される表現expを抽出すると同時に、抽出した表現expをScore(スコア)の値の大きい順にソートして(出力手段等に)出力するものである。用語表示部3は、各用語に対して、その用語の抽出に使われたパターンを文脈とし、それらの文脈の情報から各用語間の類似度を求めて、用語間の意味的距離を意味する行列を作るものである。可視化装置4は、自己組織化マップ等(二次元表示手段)を用いて二次元の図に表示(可視化)するものである。データベースDは、例えば、新聞、雑誌、Webデータ等から抽出したデータ(一定量の文書データ)を格納するものである。 Pattern extraction unit 1, extracts a pattern c i and full-text search, which appeared around the positive examples of the at number (from the input means or the like) a few positive cases entered (terms) in the database D. The term extraction unit 2 extracts the pattern c i and full-text search in the database D, at the same time extracts the representation exp extracted by the pattern c i, extracted expression exp sorted in the order of decreasing Score (Score) (To output means etc.) For each term, the term display unit 3 uses the pattern used for extracting the term as a context, obtains the similarity between the terms from the information of the context, and means the semantic distance between the terms. Create a matrix. The visualization device 4 displays (visualizes) a two-dimensional figure using a self-organizing map or the like (two-dimensional display means). The database D stores data (a certain amount of document data) extracted from, for example, newspapers, magazines, Web data, and the like.

(フローチャートによる説明)
図4は表示処理フローチャートである。以下図4の処理S11〜S14に従って説明する。
(Explanation based on flowchart)
FIG. 4 is a flowchart of the display process. Hereinafter, description will be given according to processing S11 to S14 of FIG.

S11:パターン抽出部1に、入力手段から少数の入力正例が入力される。   S11: A small number of positive input examples are input to the pattern extraction unit 1 from the input means.

S12:パターン抽出部1で、入力正例をデータベースDで全文検索し、複数の入力正例の周辺に出現したパターンをci として抽出する。(周辺に出現するパターンの定義は適宜行なう。)
S13:用語抽出部2で、パターン抽出部1で抽出したパターンci をデータベースDで全文検索し、パターンci によって抽出される表現(用語)expを抽出すると同時に、抽出した表現expをScoreの値の大きい順にソートして用語表示部3に渡す。
S12: In pattern extraction unit 1, enter a positive example full-text search database D, and extracts the appearance pattern around the plurality of input positive cases as c i. (Definitions of patterns that appear in the vicinity are made as appropriate.)
S13: The term extraction unit 2, a pattern c i extracted by the pattern extraction unit 1 and full-text search in the database D, at the same time extracts the representation (term) exp extracted by the pattern c i, extracted expression exp of Score Sort the items in descending order and pass them to the term display unit 3.

このとき、抽出された各用語にはどのパターンが使われたかのデータもくっつけておく。   At this time, data indicating which pattern is used for each extracted term is also attached.

S14:用語表示部3で、各用語に対して、その用語の抽出に使われたパターンを文脈とし、それらの文脈の情報から各用語間の類似度を求め(同じパターンを持つ用語は類似度を高くする)て、用語間の意味的距離を意味する行列を作りこの行列を可視化装置4(自己組織化マップSOM_PAKツール)に入力し、二次元マップでの各用語の座標を定める。そして、求まった座標に用語を表示した図を出力する。   S14: In the term display unit 3, for each term, the pattern used for extracting the term is used as a context, and the similarity between the terms is obtained from the information of the context (terms having the same pattern are similarities) And a matrix representing the semantic distance between the terms is created, and this matrix is input to the visualization device 4 (self-organizing map SOM_PAK tool) to determine the coordinates of each term in the two-dimensional map. And the figure which displayed the term in the calculated coordinate is outputted.

(2):可視化装置(自己組織化マップSOM_PAKツール)の説明
意味マップの自動構築マシンとしてはKohonen の自己組織化型神経回路網モデルである自己組織化マップ(Self-Organizing Map ,略してSOM)(Kohonen, T.: Self-organizing maps, 2nd edition,Springer, 1997.)を用いる。SOMは高次元入力を持つ2次元配列のノードで構成され、以下に述べる自己組織化によって、高次元データをその特徴を反映するように2次元空間にマッピングすることができる。
(2): Explanation of Visualization Device (Self-Organizing Map SOM_PAK Tool) As an automatic construction machine for semantic maps, Self-Organizing Map (SOM for short) is Kohonen's self-organizing neural network model. (Kohonen, T .: Self-organizing maps, 2nd edition, Springer, 1997.). The SOM is composed of nodes of a two-dimensional array having a high-dimensional input, and high-dimensional data can be mapped to a two-dimensional space so as to reflect the characteristics by self-organization described below.

Figure 2005322120
但し、参照ベクトルの要素μijはノードiと入力要素ξj の間の重みであり、自己組織過程において少しずつ修正される。入力ベクトルxが与えられたとき、まず、その入力をすべてのノードの参照ベクトルと比較し、ユークリッド距離の一番短いノードを活性化する。マッピング処理段階ではこのノードのみ活性化される。このノードを勝者ノードと呼ぶ。即ち、勝者ノードcは以下の式(6) のように選ばれる。
Figure 2005322120
However, the element μ ij of the reference vector is a weight between the node i and the input element ξ j and is corrected little by little in the self-organization process. When an input vector x is given, the input is first compared with the reference vectors of all nodes, and the node with the shortest Euclidean distance is activated. Only this node is activated in the mapping process stage. This node is called the winner node. That is, the winner node c is selected as shown in the following formula (6).

Figure 2005322120
一方、自己組織化過程では、グローバルに自己組織化が行われるように、勝者ノードだけでなくその近傍のノードも活性化させ、リラックス処理を行う。即ち、活性化されたすべてのノードに対し、それらの参照ベクトルを入力ベクトルに近づくように修正を行う。
Figure 2005322120
On the other hand, in the self-organization process, not only the winner node but also the nearby nodes are activated and the relaxation process is performed so that the self-organization is performed globally. That is, all the activated nodes are modified so that their reference vectors are close to the input vector.

Figure 2005322120
ここで、tは学習回数で、hci(t) は、例えば以下の式(8) のように定義された近傍関数である。
Figure 2005322120
Here, t is the number of learning times, and h ci (t) is a neighborhood function defined as, for example, the following equation (8).

Figure 2005322120
従って、項‖rc −ri ‖は近傍ノードiが勝者ノードcから離れて行くにつれ、hciが小さくなりmi (t) の修正量が小さくなることを意味する。また、α(t) は学習率で、σ(t) は近傍の大きさ(半径)である。これらは時間と共に単調に減少していく関数であればよい。
Figure 2005322120
Thus, term ‖r c -r i ‖ means that neighboring node i as the moves away from the winning node c, the correction amount of h ci decreases m i (t) becomes smaller. Α (t) is the learning rate, and σ (t) is the size (radius) of the neighborhood. These may be functions that monotonously decrease with time.

通常、学習過程は「整列」フェーズと「微調整」フェーズからなる。「整列」フェーズにおいてはα(t) とσ(t) の初期値を共に大きく取り、時間と共に減少して行く。ノードの配置の基本形はこのフェーズで形成される。一方、残りのフェーズでは、α(t) とσ(t) は小さい値のまま長時間をかけて、初期フェーズで形成された基本形を微調整する。   The learning process usually consists of an “alignment” phase and a “fine adjustment” phase. In the “alignment” phase, the initial values of α (t) and σ (t) are both large and decrease with time. The basic form of node placement is formed in this phase. On the other hand, in the remaining phases, α (t) and σ (t) take a long time while keeping small values, and finely adjust the basic shape formed in the initial phase.

本発明者らがこれまでに提案してきた可視化装置の例として、用語(ノード)間の意味的に近い単語どうしは近いところに、意味的に遠い単語どうしは離れたところに配置されるような、単言語の意味マップの自動構築手法がある(例えば、以降に記載の文献(6) 、及び Ma, Q., Zhang, M., Murata, M., Zhou, M., Isahara, H.: Self-Organizing Chinese and Japanese Semantic Maps, The 19th International Conference on Computational Linguistics (COLING'2002), Taiwan, pp. 605-611, August,2002. 参照)。   As an example of the visualization apparatus that the present inventors have proposed so far, words that are semantically close between terms (nodes) are close to each other, and words that are semantically far from each other are distant from each other. There is an automatic construction method of monolingual semantic maps (for example, reference (6) described below, and Ma, Q., Zhang, M., Murata, M., Zhou, M., Isahara, H .: (See Self-Organizing Chinese and Japanese Semantic Maps, The 19th International Conference on Computational Linguistics (COLING'2002), Taiwan, pp. 605-611, August, 2002.).

(3):具体例による説明
前記の用語抽出手法は、文字列の全文検索を使うので高速に計算できる特徴を持つ。この文字列の全文検索には、suffix arrayという高速検索アルゴリズムがある。そこで前記の手法を用いた簡易な応用システムを開発した。まず、ユーザは、好きな数語を入力する。この数語を少数の正例として前記の字種・KRを利用する手法5を利用して入力の数語と同じ分野の語を収集する。
(3): Explanation by Specific Example The term extraction method has a feature that it can be calculated at high speed because it uses a full-text search of a character string. There is a fast search algorithm called suffix array for full text search of this string. Therefore, a simple application system using the above method was developed. First, the user inputs several favorite words. Using these few words as a small number of positive examples, the above-mentioned method 5 using the character type / KR is used to collect words in the same field as the input several words.

この時高速化のため前記§1の(3)(用語抽出の具体的な説明)のアルゴリズムでパターンci は、より簡易なものにし、また途中の計算過程で何回かデータを閾値で足切りして減らしている。なお、正確には前記の実験のプログラムも少々は足切りなどをしている。それでも前記のものは一つ10時間ぐらいかかる。 Pattern c i in the algorithm of the time for speeding the §1 (3) (specific description of term extraction), to be more simple, also several times paw data threshold in the course of the calculation process Cut and reduce. To be exact, the experiment program described above is slightly cut off. Still, one of the above takes about 10 hours.

得られた同じ分野の語を見やすいように可視化して出力する。可視化には、下記文献(6) の意味マップを用いた。意味マップの利用では高速化のため学習回数を1/10にしている。それ以外はすべて文献(6) と同じ方法を用いた。文脈にはパターンci から正例の内部表現を使う素性を除いたものを利用した。なお、本発明では用語抽出に用いたパターンci を意味マップの文脈に用いたが、パターンci 以外に各用語の文脈を大規模データから抽出し直して意味マップの表示をするという方法もありえる。 Visualize and output the words in the same field so that they are easy to see. For the visualization, the semantic map of the following document (6) was used. In the use of the semantic map, the number of learning is set to 1/10 for speeding up. Otherwise, the same method as in Ref. (6) was used. The context used was the pattern c i excluding the feature that uses the internal representation of the positive example. In the present invention, the pattern c i used for term extraction is used for the context of the semantic map. However, in addition to the pattern c i , the context of each term can be extracted from large-scale data and the semantic map can be displayed. It is possible.

この実装で、現在約20秒での動作を実現している。(現在Perlでの実装部分もあるし今後のアルゴリズムの改良によっても速度をあげることは可能と思われる。)このシステムの性能は高速化で削った情報のため、一項データでは表4より精度が下がりAPは0.111 、RPは0.164 、TPは0.310 であった。   With this implementation, operation in about 20 seconds is now realized. (There are currently implementation parts in Perl, and it is possible to increase the speed by improving the algorithm in the future.) Since the performance of this system is information that has been cut by speeding up, the accuracy of the one-term data from Table 4 As a result, AP was 0.111, RP was 0.164, and TP was 0.310.

文献(6):馬青,神崎享子,村田真樹,内元清貴,井佐原均“日本語名詞の意味マップの自己組織化”情報処理学会論文誌, Vol.42, No.10,(2001),pp.2379-2391 。   Reference (6): Ma Aoi, Kyoko Kanzaki, Maki Murata, Kiyotaka Uchimoto, Hitoshi Isahara “Self-Organization of Semantic Maps of Japanese Nouns” Information Processing Society Journal, Vol.42, No.10, (2001), pp.2379-2391.

(具体例(1) )
図5はユーザによる「色」に関する用語抽出の説明図である。図5において、実際にユーザがこのシステムに「赤色」「青色」「黄色」「紫色」「茶色」を入力した場合の出力(上位20個の出力)を示してある。ここでは入力(入力正例)には“●”の記号を付けている。また各表現につけている数字は抽出手法で何番目に得られたかを示している。一般には意味マップにより類似したパターンを持つ表現が近くに配置され見やすくなる。この例だと左上の「赤色」の近くに「朱色」「紅色」が出現しており、類似した表現が近くに出現している場合があることがわかる。また、右の上から真ん中辺りに「音色」「異色」「同色」という色ではない表現が固まっているが、意味マップでの可視化ではこのように不適合な表現をどこかに集めてくれて(順位では集まらない)それを除けばよいということを見やすく示す効果もある。
(Specific example (1))
FIG. 5 is an explanatory diagram of term extraction related to “color” by the user. FIG. 5 shows the outputs (the top 20 outputs) when the user actually inputs “red”, “blue”, “yellow”, “purple”, and “brown” into this system. Here, the symbol “●” is attached to the input (input positive example). The number attached to each expression indicates the number obtained by the extraction method. In general, expressions having similar patterns are arranged close to each other by a semantic map so that it is easy to see. In this example, “red” and “red” appear near “red” in the upper left, and it can be seen that similar expressions may appear nearby. In addition, expressions that are not "tone", "different color", and "same color" are set in the middle from the top right, but in the visualization on the semantic map, such incompatible expressions are collected somewhere ( There is also an effect that it is easy to see that it should be excluded.

(具体例(2) )
前記の例等では、入力正例として名詞を用いる説明をしたが、形容詞などの評価表現も扱うことができる。例えば、パターン抽出部へ入力する入力正例として、「●悲しい」「●楽しい」「●哀しい」「●嬉しい」だと、用語抽出部の出力として次の用語を得ることができる。
(Specific example (2))
In the above-described examples and the like, nouns are used as input positive examples, but evaluation expressions such as adjectives can also be handled. For example, if “● sad” “● fun” “● sad” “● happy” is input as a positive input to the pattern extraction unit, the following terms can be obtained as the output of the term extraction unit.

「新しい」「美しい」「難しい」「厳しい」「激しい」「優しい」「寂しい」「珍しい」「苦しい」「正しい」「貧しい」「詳しい」「乏しい」「涼しい」「親しい」「欲しい」「悔しい」「真新しい」「忙しい」「著しい」「等しい」「重苦しい」「美味しい」「惜しい」「礼儀正しい」「心優しい」「生易しい」「堅苦しい」
このように、入力する用語は、名詞ばかりでなく、どのようなものも扱うことができる。
"New""Beautiful""Difficult""Strict""Intense""Friendly""Lonely""Unusual""Right""Right""Poor""Detailed""Poor""Cool""Friendly""Iwant""Brandnew""Busy""Remarkable""Equal""Heavily""Delicious""Ugly""Polite""Pleasant""Friendly""Tough"
In this way, the input term can handle not only nouns but also anything.

なお、可視化装置として自己組織化マップの方法について説明したが、主成分分析を用いる方法など他の方法を使用することもできる。また、入力正例に“●”の記号を付けているが、この他に、入力正例がわかるように何か別の印を付けるか色をかえるようにしてもよい。   In addition, although the method of the self-organization map was demonstrated as a visualization apparatus, other methods, such as the method of using a principal component analysis, can also be used. In addition, although the symbol “●” is attached to the input correct example, in addition to this, any other mark or color may be added so that the input correct example can be understood.

ここまでの例では、文脈の情報から、意味的距離を意味する行列を作り、これを可視化装置に入力する例を示したが、可視化装置自体は、他の行列を入力しても可視化することができる。例えば、ある語に対する文脈の情報を右に並べたような次の行列を入力して用語を可視化することも可能である。

文脈1 文脈2 文脈3 ・・・・ 文脈N
用語1 2 0 1 1
用語2 2 1 1 2
・・・・
用語M 0 0 1 0

上記行列の各要素の数字は、その文脈でのその用語の出現回数を意味する。また、主成分分析による手法でも、このような形式のものを入力として可視化することが可能である。
In the examples so far, a matrix indicating semantic distance is created from context information and this is input to the visualization device. However, the visualization device itself can be visualized even if other matrices are input. Can do. For example, a term can be visualized by inputting the following matrix in which context information for a word is arranged on the right.

Context 1 Context 2 Context 3 ・ ・ ・ ・ Context N
Terminology 1 2 0 1 1
Terminology 2 2 1 1 2
...
The term M 0 0 1 0

The number of each element of the matrix means the number of occurrences of the term in the context. Also, a method using principal component analysis can be visualized with such a format as an input.

(4):まとめ
以上のように、本発明では、用語抽出の際の評価に用いることができるデータを作成した。この評価データとして「国名」や「国名と首都名の組」など一項データと二項データを作成した。本発明のデータは用語の網羅性が高く、どのようなデータからの用語抽出においても再現率・適合率を算出するなどの性能評価ができるものである。また、本願で作成した二項データは、用語リストというよりは知識に近いもので、質問応答などの知識処理の研究にも用いることができるものである。
(4): Summary As described above, in the present invention, data that can be used for evaluation at the time of term extraction is created. As this evaluation data, one-term data and two-term data such as “country name” and “country name and capital name pair” were created. The data of the present invention is highly comprehensive in terms, and can be used for performance evaluations such as calculating recall and relevance ratios when extracting terms from any data. The binary data created in the present application is closer to knowledge than a term list, and can be used for research on knowledge processing such as question answering.

また、本願では簡単な用語抽出実験を行ない、種々の用語抽出方法の比較を行なった。一項データでは字種・KRを利用する手法5(文献(4) )が最も良く、二項データでは字種・KRを利用する手法3(類似度に基づく方法)が最も良かった。さらに、ユーザは好きな数語を入力すると約20秒でその数語と同じ分野の語を収集して可視化して表示する応用システムを示した。このシステムでは類似した用語が集まり、また不要な用語も集まる傾向があり、抽出結果の用語の表示としては便利な特徴を持っている。   In this application, a simple term extraction experiment was performed and various term extraction methods were compared. The method 5 (reference (4)) using the character type / KR is the best for the one-term data, and the method 3 (method based on the similarity) using the character type / KR is the best for the binary data. Furthermore, an application system is shown in which when a user inputs several favorite words, the words in the same field as those several words are collected and visualized in about 20 seconds. In this system, similar terms are gathered and unnecessary terms tend to be gathered, which is useful for displaying extracted terms.

なお、上記の例では、入力正例として2つの用語の対(二項データ)を用いた説明をしたが、3つ以上の用語の対を用いても同様に実施することができる。   In the above example, two pairs of terms (binary data) have been described as positive input examples, but the present invention can be similarly implemented using three or more pairs of terms.

(5):プログラムインストールの説明
パターン抽出部1、用語抽出部2、用語表示部3、可視化装置4等は、プログラムで構成でき、主制御部(CPU)が実行するものであり、主記憶に格納されているものである。このプログラムは、一般的な、コンピュータで処理されるものである。このコンピュータは、主制御部、主記憶、ファイル装置、表示装置、キーボード等の入力手段である入力装置などのハードウェアで構成されている。
(5): Explanation of program installation The pattern extraction unit 1, the term extraction unit 2, the term display unit 3, the visualization device 4 and the like can be configured by programs, and are executed by the main control unit (CPU) and stored in the main memory. It is stored. This program is generally processed by a computer. This computer is composed of hardware such as an input device as input means such as a main control unit, main memory, file device, display device, and keyboard.

このコンピュータに、本発明のプログラムをインストールする。このインストールは、フロッピィ、光磁気ディスク等の可搬型の記録(記憶)媒体に、これらのプログラムを記憶させておき、コンピュータが備えている記録媒体に対して、アクセスするためのドライブ装置を介して、或いは、LAN等のネットワークを介して、コンピュータに設けられたファイル装置にインストールされる。そして、このファイル装置から処理に必要なプログラムステップを主記憶に読み出し、主制御部が実行するものである。   The program of the present invention is installed on this computer. In this installation, these programs are stored in a portable recording (storage) medium such as a floppy disk or a magneto-optical disk, and a drive device for accessing the recording medium provided in the computer is used. Alternatively, it is installed in a file device provided in the computer via a network such as a LAN. Then, the program steps necessary for processing are read from the file device into the main memory and executed by the main control unit.

本発明の抽出システムの説明図である。It is explanatory drawing of the extraction system of this invention. 本発明の用語抽出処理フローチャートである。It is a term extraction processing flowchart of the present invention. 本発明の表示システムの説明図である。It is explanatory drawing of the display system of this invention. 本発明の表示処理フローチャートである。It is a display processing flowchart of the present invention. 本発明のユーザによる「色」に関する用語抽出の説明図である。It is explanatory drawing of the term extraction regarding the "color" by the user of this invention.

符号の説明Explanation of symbols

1 パターン抽出部
2 用語抽出部
D データベース
1 Pattern extractor 2 Term extractor D Database

Claims (9)

入力する複数の少数の用語である入力正例と、
一定量の文書データを格納したデータベースと、
入力された前記入力正例を前記データベースで全文検索し、複数の前記入力正例の周辺に出現したパターンを抽出するパターン抽出部と、
前記パターン抽出部で抽出したパターンを前記データベースで全文検索し、該パターンによって抽出される表現を抽出する用語抽出部とを備え、
前記用語抽出部は、前記入力正例になかった字種を含む表現を抽出しないようにすることを特徴とした抽出システム。
A positive input, which is a small number of terms to enter,
A database that stores a certain amount of document data;
A full-text search in the database for the input positive examples that have been input, and a pattern extraction unit that extracts patterns that appear around the input positive examples, and
A full-text search in the database for the pattern extracted by the pattern extraction unit, and a term extraction unit for extracting an expression extracted by the pattern;
The term extraction unit is configured to prevent an expression including a character type not included in the input example from being extracted.
入力する複数の少数の用語である入力正例と、
一定量の文書データを格納したデータベースと、
入力された前記入力正例を前記データベースで全文検索し、複数の前記入力正例の周辺に出現したパターンを抽出するパターン抽出部と、
前記パターン抽出部で抽出したパターンを前記データベースで全文検索し、該パターンによって抽出される表現を抽出すると同時にスコアの大きい順にソートする用語抽出部とを備え、
前記用語抽出部は、前記スコアの算出に前記パターンで抽出される表現での入力正例の割合(pi )に前記パターンが出現した前記入力正例の個数(fi )を前記入力正例の個数(ni )で割った値を掛けた値(pi ×fi /ni )を用いることを特徴とした抽出システム。
A positive input, which is a small number of terms to enter,
A database that stores a certain amount of document data;
A full-text search in the database for the input positive examples that have been input, and a pattern extraction unit that extracts patterns that appear around the input positive examples, and
A full text search of the pattern extracted by the pattern extraction unit, and a term extraction unit that extracts expressions extracted by the pattern and simultaneously sorts them in descending order of scores,
The term extraction unit calculates the number (f i ) of the input positive examples in which the pattern appears in the ratio (p i ) of the input positive examples in the expression extracted by the pattern for the calculation of the score. An extraction system characterized by using a value (p i × f i / n i ) multiplied by a value divided by the number of (n i ).
入力する複数の少数の用語である入力正例と、
一定量の文書データを格納したデータベースと、
入力された前記入力正例を前記データベースで全文検索し、複数の前記入力正例の周辺に出現したパターンを抽出するパターン抽出部と、
前記パターン抽出部で抽出したパターンを前記データベースで全文検索し、該パターンによって抽出される表現を抽出すると同時にスコアの大きい順にソートする用語抽出部とを備え、
前記用語抽出部は、前記入力正例になかった字種を含む表現を抽出しないようにすると共に、前記スコアの算出に前記パターンで抽出される表現での入力正例の割合(pi )に前記パターンが出現した前記入力正例の個数(fi )を前記入力正例の個数(ni )で割った値を掛けた値(pi ×fi /ni )を用いることを特徴とした抽出システム。
A positive input, which is a small number of terms to enter,
A database that stores a certain amount of document data;
A full-text search in the database for the input positive examples that have been input, and a pattern extraction unit that extracts patterns that appear around the input positive examples, and
A full text search of the pattern extracted by the pattern extraction unit, and a term extraction unit that extracts expressions extracted by the pattern and simultaneously sorts them in descending order of scores,
The term extraction unit is configured not to extract an expression including a character type that was not in the input positive example, and to calculate a ratio of the input positive example in the expression extracted by the pattern in the calculation of the score ( pi ). A value (p i × f i / n i ) obtained by multiplying the number (f i ) of the input positive examples in which the pattern appears by the number (n i ) of the input positive examples is used. Extraction system.
入力する複数の少数の用語である入力正例と、
一定量の文書データを格納したデータベースと、
入力された前記入力正例を前記データベースで全文検索し、複数の前記入力正例の周辺に出現したパターンを抽出するパターン抽出部と、
前記パターン抽出部で抽出したパターンを前記データベースで全文検索し、該パターンによって抽出される表現を抽出する用語抽出部とを備え、
前記用語抽出部は、前記入力正例の末尾の形態素になかった品詞を含む表現を抽出しないようにすることを特徴とした抽出システム。
A positive input, which is a small number of terms to enter,
A database that stores a certain amount of document data;
A full-text search in the database for the input positive examples that have been input, and a pattern extraction unit that extracts patterns that appear around the input positive examples, and
A full-text search in the database for the pattern extracted by the pattern extraction unit, and a term extraction unit for extracting an expression extracted by the pattern;
The extraction system according to claim 1, wherein the term extraction unit is configured not to extract an expression including a part of speech that was not included in the last morpheme of the input positive example.
入力する複数の少数の用語である入力正例と、
一定量の文書データを格納したデータベースと、
入力された前記入力正例を前記データベースで全文検索し、複数の前記入力正例の周辺に出現したパターンを抽出するパターン抽出部と、
前記パターン抽出部で抽出したパターンを前記データベースで全文検索し、該パターンによって抽出される表現を抽出する用語抽出部とを備え、
前記用語抽出部は、前記入力正例の共通部分文字列を持たない表現を抽出しないようにすることを特徴とした抽出システム。
A positive input, which is a small number of terms to enter,
A database that stores a certain amount of document data;
A full-text search in the database for the input positive examples that have been input, and a pattern extraction unit that extracts patterns that appear around the input positive examples, and
A full-text search in the database for the pattern extracted by the pattern extraction unit, and a term extraction unit for extracting an expression extracted by the pattern;
The term extraction unit does not extract an expression having no common partial character string of the input positive example.
前記用語抽出部が抽出しないようにする表現をユーザが指定できるようにすることを特徴とした請求項1〜5のいずれかに記載の抽出システム。 The extraction system according to claim 1, wherein a user can specify an expression that the term extraction unit does not extract. 前記入力正例として複数の少数の二項以上の用語データを入力し、前記用語抽出部で二項以上の用語の表現を抽出することを特徴とした請求項1〜6のいずれかに記載の抽出システム。 7. The input of a plurality of two or more terms as a positive example, and the term extraction unit extracts expressions of two or more terms according to any one of claims 1 to 6. Extraction system. 入力する複数の少数の二項以上の用語データである入力正例と、
一定量の文書データを格納したデータベースと、
入力された前記入力正例を前記データベースで全文検索し、複数の前記入力正例の周辺に出現したパターンを抽出するパターン抽出部と、
前記パターン抽出部で抽出したパターンを前記データベースで全文検索し、該パターンによって抽出される二項以上の用語の表現を抽出すると同時にスコアの大きい順にソートする用語抽出部とを備え、
前記用語抽出部は、前記スコアの算出に前記抽出した複数のパターンのデータの組み合わせを用いることを特徴とした抽出システム。
A positive input example that is a plurality of a few binomial term data to be input,
A database that stores a certain amount of document data;
A full-text search in the database for the input positive examples that have been input, and a pattern extraction unit that extracts patterns that appear around the input positive examples, and
A full text search of the pattern extracted by the pattern extraction unit, and a term extraction unit that extracts expressions of two or more terms extracted by the pattern and sorts them in descending order of scores,
The term extraction unit uses a combination of the extracted data of the plurality of patterns for the calculation of the score.
複数の少数の用語である入力正例を入力する手順と、
一定量の文書データをデータベースに格納する手順と、
入力された前記入力正例を前記データベースで全文検索し、複数の前記入力正例の周辺に出現したパターンを抽出するパターン抽出手順と、
前記抽出したパターンを前記データベースで全文検索し、該パターンによって抽出される表現を抽出する用語抽出手順と、
前記入力正例になかった字種を含む表現を抽出しないようにする用語抽出手順とを、
コンピュータに実行させるためのプログラム。
A procedure for entering positive input examples that are multiple minority terms;
A procedure for storing a certain amount of document data in a database;
A full-text search in the database for the input positive examples that have been input, and a pattern extraction procedure for extracting patterns that appear around the input positive examples,
A full-text search for the extracted pattern in the database, and a term extraction procedure for extracting an expression extracted by the pattern;
A term extraction procedure for preventing an expression including a character type that was not in the input example from being extracted,
A program that causes a computer to execute.
JP2004140840A 2004-05-11 2004-05-11 Extraction system Expired - Fee Related JP4593966B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004140840A JP4593966B2 (en) 2004-05-11 2004-05-11 Extraction system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004140840A JP4593966B2 (en) 2004-05-11 2004-05-11 Extraction system

Publications (2)

Publication Number Publication Date
JP2005322120A true JP2005322120A (en) 2005-11-17
JP4593966B2 JP4593966B2 (en) 2010-12-08

Family

ID=35469348

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004140840A Expired - Fee Related JP4593966B2 (en) 2004-05-11 2004-05-11 Extraction system

Country Status (1)

Country Link
JP (1) JP4593966B2 (en)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH086971A (en) * 1994-06-16 1996-01-12 Xerox Corp Thesaurus creation method
JPH09237277A (en) * 1996-02-29 1997-09-09 Hitachi Ltd Method for analyzing compound noun

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH086971A (en) * 1994-06-16 1996-01-12 Xerox Corp Thesaurus creation method
JPH09237277A (en) * 1996-02-29 1997-09-09 Hitachi Ltd Method for analyzing compound noun

Also Published As

Publication number Publication date
JP4593966B2 (en) 2010-12-08

Similar Documents

Publication Publication Date Title
JP3981734B2 (en) Question answering system and question answering processing method
CN109582704B (en) Recruitment information and the matched method of job seeker resume
Clinchant et al. Xrce’s participation in wikipedia retrieval, medical image modality classification and ad-hoc retrieval tasks of imageclef 2010
JP4347226B2 (en) Information extraction program, recording medium thereof, information extraction apparatus, and information extraction rule creation method
Cao et al. Machine learning based detection of clickbait posts in social media
JP4849596B2 (en) Question answering apparatus, question answering method, and question answering program
Mann et al. Multi-field information extraction and cross-document fusion
JP4931114B2 (en) Data display device, data display method, and data display program
JP4426041B2 (en) Information retrieval method by category factor
Farhan et al. Survey of automatic query expansion for Arabic text retrieval
JP2004334766A (en) Word classifying device, word classifying method and word classifying program
Hassan et al. Query answering approach based on document summarization
JP2009086903A (en) Retrieval service device
Thangarasu et al. Design and development of stemmer for Tamil language: cluster analysis
JP4593967B2 (en) Display system
Séaghdha Annotating and learning compound noun semantics
JP4593966B2 (en) Extraction system
CN112949287B (en) Hot word mining method, system, computer equipment and storage medium
Ploch et al. GerNED: A German Corpus for Named Entity Disambiguation.
JP2002183194A (en) Device and method for generating retrieval expression
JP2006119697A (en) Question answering system, question answering method, and question answering program
Nwesri et al. Applying Arabic stemming using query expansion
Frunza Automatic identification of cognates, false friends, and partial cognates
Dershowitz et al. Relating articles textually and visually
Boiy et al. Learning visual entities and their visual attributes from text corpora

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070405

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090501

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090501

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100302

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100412

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100622

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100810

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100907

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100916

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130924

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees