JP4919386B2 - Information extraction / display device - Google Patents
Information extraction / display device Download PDFInfo
- Publication number
- JP4919386B2 JP4919386B2 JP2006016052A JP2006016052A JP4919386B2 JP 4919386 B2 JP4919386 B2 JP 4919386B2 JP 2006016052 A JP2006016052 A JP 2006016052A JP 2006016052 A JP2006016052 A JP 2006016052A JP 4919386 B2 JP4919386 B2 JP 4919386B2
- Authority
- JP
- Japan
- Prior art keywords
- expression
- main
- trend information
- extraction
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000605 extraction Methods 0.000 title claims description 212
- 230000014509 gene expression Effects 0.000 claims description 422
- 239000000284 extract Substances 0.000 claims description 69
- 238000010801 machine learning Methods 0.000 claims description 33
- 238000013500 data storage Methods 0.000 claims description 5
- 238000000034 method Methods 0.000 description 72
- 238000012706 support-vector machine Methods 0.000 description 20
- 238000012545 processing Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 238000002474 experimental method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000000926 separation method Methods 0.000 description 5
- 241000008357 Okapia johnstoni Species 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000000877 morphologic effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001343 mnemonic effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013106 supervised machine learning method Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、情報抽出・表示技術に関し、特に、記事群から動向情報を抽出して表示する情報抽出・表示装置に関する。 The present invention relates to an information extraction and display technology, especially relates to the information extraction and display equipment to extract and view trends information from the article group.
従来の動向情報の抽出技術として、例えば、下記の非特許文献1は、文間関係を利用して、文間関係が推移か更新かを判断し、その情報を利用して動向情報を抽出する技術に関して記載している。 As a conventional technique for extracting trend information, for example, Non-Patent Document 1 below uses the inter-sentence relationship to determine whether the inter-sentence relationship is transition or update, and extracts the trend information using the information. It describes about technology.
ここで、動向情報とは、ある項目の数量に注目し、その時間的な変化をまとめた情報のことを指す。例として、ある人物のホームラン数の変化や内閣支持率の変化などが挙げられる。動向情報を抽出するには、ある項目とその数量の表現を抽出するだけでは不十分で、その数量が対応している時間表現も同時に抽出する必要がある。
しかし、上記従来技術では、数値情報の単位表現を自動で取り出すことや、数値情報に対応する項目を自動で取り出すことは行っていない。従って、従来技術によっては、ある分野に関連する記事群から自動で主要な単位表現、時間表現、項目表現を抽出し、それらを利用して、動向情報を抽出し、抽出した動向情報をグラフ化して表示することは困難である。 However, the above prior art does not automatically extract the unit representation of the numerical information or automatically extract the item corresponding to the numerical information. Therefore, depending on the prior art, main unit expressions, time expressions, and item expressions are automatically extracted from articles related to a certain field, trend information is extracted using them, and the extracted trend information is graphed. Is difficult to display.
本発明は、上記従来技術の問題点を解決し、ある分野に関連する記事群から自動で動向情報を抽出して表示する情報抽出・表示装置の提供を目的とする。 The present invention shows the above-mentioned solution to the problems of the prior art, and to provide information extraction and display equipment to extract and view trends information automatically from article group associated with a field.
上記課題を解決するため、本発明は、動向情報を抽出して表示する情報抽出・表示装置であって、ある分野に関連する記事群から、前記記事群における主要単位表現を抽出する主要単位表現抽出手段を備えることを特徴とする。 In order to solve the above problems, the present invention provides an information extraction / display device that extracts and displays trend information, and extracts a main unit expression in the article group from an article group related to a certain field. An extraction unit is provided.
また、本発明は、動向情報を抽出して表示する情報抽出・表示装置であって、ある分野に関連する記事群から主要表現を抽出する主要表現抽出手段と、前記主要表現抽出手段によって抽出された主要表現に基づいて、前記記事群から動向情報対を抽出する動向情報対抽出手段と、前記動向情報対抽出手段によって抽出された動向情報対を表示する表示手段とを備えることを特徴とする。 In addition, the present invention is an information extraction / display device that extracts and displays trend information, and is extracted by a main expression extraction unit that extracts a main expression from an article group related to a certain field, and the main expression extraction unit. A trend information pair extracting means for extracting a trend information pair from the article group based on the main expression, and a display means for displaying the trend information pair extracted by the trend information pair extracting means. .
また、本発明は、前記の情報抽出・表示装置において、前記主要表現抽出手段は、前記記事群から主要単位表現を抽出する主要単位表現抽出手段と、前記記事群から主要時間表現を抽出する主要時間表現抽出手段と、前記記事群から主要項目表現を抽出する主要項目表現抽出手段とを備えることを特徴とする。 In the information extraction / display apparatus according to the present invention, the main expression extraction unit includes a main unit expression extraction unit that extracts a main unit expression from the article group, and a main time expression that extracts a main time expression from the article group. It comprises time expression extraction means and main item expression extraction means for extracting a main item expression from the article group.
また、本発明は、前記の情報抽出・表示装置において、前記動向情報対抽出手段は、機械学習の手法を用いて、前記動向情報対を抽出することを特徴とする。 In the information extraction / display apparatus according to the present invention, the trend information pair extraction unit extracts the trend information pair by using a machine learning technique.
また、本発明は、動向情報を抽出して表示する情報抽出・表示装置であって、入力された主要表現に基づいて、ある分野に関連する記事群から動向情報対を抽出する動向情報対抽出手段と、前記動向情報対抽出手段によって抽出された動向情報対を表示する表示手段とを備え、前記動向情報対抽出手段は、機械学習の手法を用いて、前記動向情報対を抽出することを特徴とする。 The present invention also relates to an information extraction / display device that extracts and displays trend information, and extracts trend information pairs from a group of articles related to a certain field based on the inputted main expression. And a display means for displaying the trend information pair extracted by the trend information pair extraction means, wherein the trend information pair extraction means extracts the trend information pair using a machine learning technique. Features.
また、本発明は、前記の情報抽出・表示装置において、前記主要表現抽出手段は、主要表現を複数抽出し、前記表示手段は、前記動向情報抽出手段が前記抽出された主要表現に基づいて抽出した複数種類の動向情報対から、主要な動向情報対を抽出し、前記抽出した主要な動向情報対を表示することを特徴とする。 In the information extraction / display apparatus according to the present invention, the main expression extraction unit extracts a plurality of main expressions, and the display unit extracts the trend information extraction unit based on the extracted main expressions. The main trend information pairs are extracted from the plurality of types of trend information pairs, and the extracted main trend information pairs are displayed.
また、本発明は、前記の情報抽出・表示装置において、前記動向情報対抽出手段が、さらに、前記主要表現抽出手段によって抽出された主要表現のうち、選択された主要表現に基づいて、前記記事群から動向情報対を抽出することを特徴とする。 Further, the present invention is the information extraction / display apparatus, wherein the trend information pair extraction unit further includes the article based on a selected main expression among the main expressions extracted by the main expression extraction unit. It is characterized by extracting trend information pairs from groups.
また、本発明は、前記の情報抽出・表示装置において、キーワードを入力するキーワード入力手段と、前記入力されたキーワードに関連する記事群を記憶手段に記憶された書誌データから抽出する記事群抽出手段とを備え、前記主要表現抽出手段は、前記記事群抽出手段によって抽出された記事群から前記主要表現を抽出することを特徴とする。 Further, the present invention provides a keyword input unit for inputting a keyword and an article group extraction unit for extracting an article group related to the input keyword from bibliographic data stored in a storage unit in the information extraction / display apparatus. The main expression extracting means extracts the main expression from the article group extracted by the article group extracting means.
また、本発明は、前記の情報抽出・表示装置において、前記表示手段は、前記動向情報対抽出手段によって抽出された動向情報対をグラフ化して表示することを特徴とする。 Further, the present invention is characterized in that, in the information extraction / display apparatus, the display means displays the trend information pairs extracted by the trend information pair extraction means in a graph.
また、本発明は、前記の情報抽出・表示装置において、前記表示手段は、前記動向情報対抽出手段によって抽出された動向情報対を含む文を前記記事群から抽出し、前記抽出された文中において、前記動向情報対を強調表示することを特徴とする。 In the information extraction / display apparatus according to the present invention, the display unit extracts a sentence including the trend information pair extracted by the trend information pair extraction unit from the article group, and the extracted sentence includes The trend information pair is highlighted.
また、本発明は、動向情報を抽出して表示する情報抽出・表示装置であって、入力された主要表現に基づいて、ある分野に関連する記事群から動向情報対を抽出する動向情報対抽出手段と、前記動向情報対抽出手段によって抽出された動向情報対を表示する表示手段とを備え、前記表示手段は、前記動向情報対抽出手段によって抽出された動向情報対を含む文を前記記事群から抽出し、前記抽出された文中において、前記動向情報対を強調表示することを特徴とする。 The present invention also relates to an information extraction / display device that extracts and displays trend information, and extracts trend information pairs from a group of articles related to a certain field based on the inputted main expression. Means and display means for displaying the trend information pair extracted by the trend information pair extraction means, wherein the display means displays a sentence including the trend information pair extracted by the trend information pair extraction means as the article group. And the trend information pair is highlighted in the extracted sentence.
また、本発明は、動向情報を抽出して表示する情報抽出・表示方法であって、ある分野に関連する記事群から、前記記事群における主要単位表現を抽出するステップを有することを特徴とする。 Further, the present invention is an information extraction / display method for extracting and displaying trend information, characterized by comprising a step of extracting a main unit expression in the article group from an article group related to a certain field. .
また、本発明は、動向情報を抽出して表示する情報抽出・表示装置が備えるコンピュータに実行させるプログラムであって、前記コンピュータに、ある分野に関連する記事群から、前記記事群における主要単位表現を抽出する処理を実行させることを特徴とする。 Further, the present invention is a program that is executed by a computer included in an information extraction / display device that extracts and displays trend information, wherein the computer is configured to represent a main unit in the article group from an article group related to a certain field. It is characterized in that a process of extracting the above is executed.
本発明の情報抽出・表示装置、情報抽出・表示方法および情報抽出・表示プログラムによれば、ある分野に関連する記事群が与えられれば、その記事群から自動で動向情報を抽出して表示することが可能となる。 According to the information extraction / display apparatus, information extraction / display method, and information extraction / display program of the present invention, when an article group related to a certain field is given, trend information is automatically extracted from the article group and displayed. It becomes possible.
以下に、図を用いて、本発明の実施の形態について説明する。図1は、本発明のシステム構成の一例を示す図である。情報抽出・表示装置1は、ある分野に関連する記事群から動向情報を抽出して表示する処理装置である。本発明の実施の形態においては、情報抽出・表示装置1は、動向情報を抽出または表示する処理装置としてもよい。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a diagram showing an example of a system configuration of the present invention. The information extraction / display device 1 is a processing device that extracts and displays trend information from articles related to a certain field. In the embodiment of the present invention, the information extraction / display device 1 may be a processing device that extracts or displays trend information.
情報抽出・表示装置1は、主要表現抽出部11、動向情報対抽出部12、主要動向情報対抽出・表示部13、関連記事データベース(DB)14を備える。
The information extraction / display apparatus 1 includes a main
主要表現抽出部11は、後述する関連記事DB14に蓄積された、ある分野に関連する記事群から、主要表現を抽出する。抽出する主要表現は、例えば、単位表現、時間表現、項目表現である。主要表現は、後述する動向情報対抽出部12において動向情報対を抽出する際に用いる。主要表現を抽出する際には、例えば、対象の記事群全体に万遍なく高頻度に出現する該当表現を抽出する。
The main
主要表現抽出部11は、主要単位表現抽出部111、主要時間表現抽出部112、主要項目表現抽出部113を備える。
The main
主要単位表現抽出部111は、動向情報を抽出、整理する際に必要となる単位表現を抽出する。例えば、ホームラン競争の記事だと、「50本」、「50号」などの「本」、「号」を単位表現として抽出する。主要時間表現抽出部112は、動向情報を抽出、整理する際に必要となる時間表現を抽出する。例えば、日、月、年などの時間表現を抽出する。主要項目表現抽出部113は、動向情報を抽出、整理する際に必要となる項目表現を抽出する。例えば、ホームラン競争の記事だと、「マグワイア」、「ソーサ」などの動向調査の対象となる表現を項目表現として抽出する。
The main unit
動向情報対抽出部12は、対象の記事群において、主要表現抽出部11において取り出した主要表現が同時に出現している箇所を特定し、その部分に記載されている主要単位表現と当該主要単位表現に対応する数値とからなる数値表現と、主要時間表現と、主要項目表現との対を、動向情報対として抽出する。ここで主要単位表現に対応する数値とは、例えば、主要単位表現に隣接して記事中に出現している数値が該当する。すなわち、主要単位表現については、それに関連する数値も同時に抽出し、数値と主要単位表現とをあわせて数値表現として抽出する。例えば、ホームラン競争の記事だと、「項目表現:マグワイア」「時間表現:11日」「数値情報:47号」の情報対を動向情報対として抽出する。
The trend information
主要動向情報対抽出・表示部13は、対象の記事群において、動向情報対抽出部12において抽出した動向情報対を整理して、動向情報をグラフ化または強調表示したテキストで提示する。例えば、ホームラン競争の記事だと、動向情報対抽出部12で取り出した、「マグワイア」に関する動向情報対をグラフ化して表示する。例えば、横軸に時間軸をとり、縦軸にホームラン数をとってグラフ化して表示する。また、例えば、主要動向情報対抽出・表示部13は、関連記事DB14内の記事群から動向情報対を含む文を抽出し、当該抽出された文中において、動向情報対を強調表示する。
The main trend information pair extraction /
主要動向情報対抽出・表示部13は、主要表現抽出部11が抽出した主要表現が複数の場合に、各主要表現に基づいて動向情報対抽出部12が抽出した複数種類の動向情報対から主要な動向情報対を抽出した上で、抽出された主要な動向情報対をグラフ化または強調表示する構成を採ってもよい。
When there are a plurality of main expressions extracted by the main
関連記事DB14には、ある分野に関連する記事群が蓄積されている。本発明の実施の形態においては、関連記事DB14を省略し、情報抽出・表示装置1が、入力されたある分野に関連する記事群に基づいて主要表現を抽出し、また、動向情報を抽出する構成を採ってもよい。
The related article DB 14 stores an article group related to a certain field. In the embodiment of the present invention, the
また、本発明の実施の形態においては、情報抽出・表示装置1が、さらに、キーワードを入力するキーワード入力部(図示を省略)と、入力されたキーワードに関連する記事群を、記憶手段(図示を省略)内の書誌データから抽出して関連記事DB14に格納する記事群抽出部(図示を省略)を備える構成を採ってもよい。上記書誌データは、例えば大規模コーパスが該当する。また、上記記事群抽出部が、抽出した記事群を主要表現抽出部11に入力し、主要表現抽出部11が、入力された当該記事群から主要表現を抽出する構成を採ってもよい。本発明の実施の形態においては、入力されたキーワード自体を主要項目表現として用いてもよい。
In the embodiment of the present invention, the information extraction / display apparatus 1 further includes a keyword input unit (not shown) for inputting a keyword, and an article group related to the input keyword as storage means (shown). May be provided with an article group extraction unit (not shown) that is extracted from the bibliographic data and stored in the
以下に、本発明の実施の形態に係る情報抽出・表示装置1の各構成要素の詳細な例について説明する。
(主要表現抽出部11)
主要表現抽出部11は、動向情報を抽出、整理する際に必要となる主要表現を抽出する。主要表現としては以下のものを抽出する。
Below, the detailed example of each component of the information extraction / display apparatus 1 which concerns on embodiment of this invention is demonstrated.
(Main Expression Extraction Unit 11)
The main
単位表現
時間表現
項目表現
各表現の抽出には、例えば、ChaSen(下記の参考文献(1)参照)を利用する。
Unit Representation Time Representation Item Representation For example, ChaSen (see Reference (1) below) is used to extract each representation.
参考文献(1): Y. Matsumoto, A. Kitauchi, T. Yamashita,Y. Hirano, H. Matsuda and M. Asahara: Japanese morphological analysis system ChaSen version 2.0 manual 2nd edition ”(1999).
ChaSenの出力において、品詞の情報を利用して、各表現の抽出を行う。単位表現は、数値の前方または後方に接続する名詞連続を取り出す。時間表現は、例えば、単位表現として得られた表現のうち、時間に関する表現(例:「年」「月」「日」「時」「秒」)を含む表現を時間表現とする。項目表現は、例えば名詞連続を取り出す。
Reference (1): Y. Matsumoto, A. Kitauchi, T. Yamashita, Y. Hirano, H. Matsuda and M. Asahara: Japanese morphological analysis system ChaSen version 2.0 manual 2nd edition ”(1999).
In the output of ChaSen, each expression is extracted using part of speech information. The unit representation takes out a noun series that connects to the front or back of the numerical value. As the time expression, for example, an expression including expressions related to time (eg, “year”, “month”, “day”, “hour”, “second”) among expressions obtained as unit expressions is used as a time expression. For the item expression, for example, a noun series is taken out.
ただし、上記各処理では、例えば、未知語は名詞として扱う。後方に接続する名詞連続の場合は品詞細分類が接尾辞の名詞の次に接尾辞以外の名詞が来た場合は、例えば、その接尾辞の名詞までを取り出す。また、例えば、ChaSenの典型的な誤り、または、扱いにくい出力についてはプログラムで自動的に修正するようにする。例えば未知語のスやナを動詞や助詞とする誤りの出力は、それぞれ未知語となるようにする。また、「1月」など数値と単位を一つの名詞として出力する場合は、単位表現を取り出しやすいように「1」と「月」に分解して扱う。 However, in each of the above processes, for example, an unknown word is treated as a noun. In the case of consecutive nouns connected backward, if a noun other than the suffix comes after the suffix noun in the part of speech subcategory, for example, the suffix noun is taken out. Further, for example, a typical error of ChaSen or an unwieldy output is automatically corrected by a program. For example, an error output using an unknown word su or na as a verb or a particle is set as an unknown word. When outputting a numerical value and a unit such as “January” as a single noun, the unit expression is decomposed into “1” and “month” for easy extraction.
上述したChaSenを用いた手法の他に、単位表現、時間表現、項目表現を固有表現として扱い、以下に述べる固有表現抽出技術を用いて主要表現を抽出する手法を採ることもできる。 In addition to the method using ChaSen described above, a unit expression, a time expression, and an item expression can be handled as specific expressions, and a method of extracting a main expression using a specific expression extraction technique described below can be adopted.
固有表現とは、人名、地名、組織名などの固有名詞、金額などの数値表現といった、特定の事物・数量を意味する言語表現のことで、固有表現抽出とは、そういった固有表現を文章中から計算機で自動で抽出する技術である。例えば、「日本の首相は小泉純一郎である」という文に対して固有表現抽出を行なうと、固有表現の「日本」と「小泉純一郎」が地名、人名として、抽出される。 A specific expression is a linguistic expression that means a specific thing / quantity, such as a numerical name such as a name, a place name, or an organization name, and a numerical expression such as a monetary amount. This is a technology for automatic extraction by a computer. For example, if a specific expression is extracted for a sentence “the Japanese prime minister is Junichiro Koizumi”, the specific expressions “Japan” and “Junichiro Koizumi” are extracted as place names and personal names.
以下に、固有表現抽出の一般的な手法の例について説明する。
(1)機械学習を用いる手法
機械学習を用いて固有表現を抽出する手法がある(例えば、以下の参考文献(2)参照)。
Hereinafter, an example of a general technique for extracting a specific expression will be described.
(1) A method using machine learning There is a method of extracting a specific expression using machine learning (for example, see the following reference (2)).
参考文献(2):浅原正幸,松本裕治,日本語固有表現抽出における冗長的な形態素解析の利用情報処理学会自然言語処理研究会 NL153-7 2002 Reference (2): Masayuki Asahara, Yuji Matsumoto, Use of Redundant Morphological Analysis in Japanese Named Expression Extraction Information Processing Society of Japan Natural Language Processing Study Group NL153-7 2002
まず、例えば、「日本の首相は小泉さんです。」という文を、各文字に分割し、分割した文字について、以下のように、 B−LOCATION、 I−LOCATION等の正解タグを付与することによって、正解を設定する。以下の一列目は、分割された各文字であり、各文字の正解タグは二列目である。
日 B−LOCATION
本 I−LOCATION
の O
首 O
相 O
は O
小 B−PERSON
泉 I−PERSON
さ O
ん O
で O
す O
。 O
上記において、B −???は、ハイフン以下の固有表現の種類の始まりを意味するタグである。例えば、 B−LOCATIONは、地名という固有表現の始まりを意味しており、 B−PERSONは、人名という固有表現の始まりを意味している。また、I −???は、ハイフン以下の固有表現の種類の始まり以外を意味するタグであり、O はこれら以外である。従って、例えば、文字「日」は、地名という固有表現の始まりに該当する文字であり、文字「本」までが地名という固有表現である。
First, for example, the sentence “Japan's prime minister is Mr. Koizumi” is divided into each character, and the correct characters such as B-LOCATION and I-LOCATION are assigned to the divided characters as follows. Set the correct answer. The first column below is each divided character, and the correct tag of each character is the second column.
Sun B-LOCATION
I-LOCATION
O
Neck O
Phase O
Is O
Small B-PERSON
Izumi I-PERSON
O
N
At O
O
. O
In the above, B-? ? ? Is a tag that signifies the start of the type of proper expression below the hyphen. For example, B-LOCATION means the beginning of a unique expression called place name, and B-PERSON means the beginning of a unique expression called person name. I-? ? ? Is a tag that means something other than the beginning of the type of proper expression below the hyphen, and O is something else. Therefore, for example, the character “day” is a character that corresponds to the beginning of the unique name “place name”, and the character “book” is the unique name “place name”.
このように、各文字の正解を設定しておき、このようなデータから学習し、新しいデータでこの正解を推定し、この正解のタグから、各固有表現の始まりと、どこまでがその固有表現かを認識して、固有表現を推定する。 In this way, the correct answer of each character is set, learned from such data, this correct answer is estimated with new data, and from this correct answer tag, the beginning of each proper expression and how far it is. Is recognized and the proper expression is estimated.
この各文字に設定された正解のデータから学習するときには、システムによってさまざまな情報を素性という形で利用する。例えば、
日 B−LOCATION
の部分は、
日本−B 名詞−B
などの情報を用いる。日本−B は、日本という単語の先頭を意味し、名詞−B は、名詞の先頭を意味する。単語や品詞の認定には、例えば前述したChaSenによる形態素解析を用いる。ChaSenを用いれば、入力された日本語を単語に分割することができる。例えば、ChaSenは、前述したように、日本語文を分割し、さらに、各単語の品詞も推定してくれる。例えば、「学校へ行く」を入力すると以下の結果を得ることができる。
When learning from the correct data set for each character, the system uses various information in the form of features. For example,
Sun B-LOCATION
Part of
Japan-B Noun-B
Such information is used. Japan-B means the beginning of the word Japan, and noun-B means the beginning of the noun. For recognition of words and parts of speech, for example, morphological analysis by ChaSen described above is used. If ChaSen is used, the input Japanese can be divided into words. For example, ChaSen divides a Japanese sentence and estimates the part of speech of each word as described above. For example, if “go to school” is entered, the following results can be obtained.
学校 ガッコウ 学校 名詞−一般
へ ヘ へ 助詞−格助詞−一般
行く イク 行く 動詞−自立 五段・カ行促音便 基本形
EOS
このように各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。
School Gacco School Noun-General To He To particle-Case particle-General Go Iku Go Verb-independence
In this way, each line is divided so that one word is included, and reading and part-of-speech information are given to each word.
なお、例えば、上記の参考文献(2)では、素性として、入力文を構成する文字の、文字自体(例えば、「小」という文字)、字種(例えば、ひらがなやカタカナ等)、品詞情報、タグ情報(例えば、「 B−PERSON」等)を利用している。 For example, in the above reference (2), as features, characters constituting the input sentence itself (for example, “small” character), character type (for example, hiragana, katakana, etc.), part of speech information, Tag information (for example, “B-PERSON” or the like) is used.
これら素性を利用して学習する。タグを推定する文字やその周辺の文字にどういう素性が出現するかを調べ、どういう素性が出現しているときにどういうタグになりやすいかを学習し、その学習結果を利用して新しいデータでのタグの推定を行なう。機械学習には、例えばサポートベクトルマシンを用いる。 Learning using these features. Investigate what features appear in the characters that estimate the tag and the surrounding characters, learn what features are likely to appear when the features appear, and use the learning results to create new data Perform tag estimation. For machine learning, for example, a support vector machine is used.
固有表現抽出には、上記の手法の他にも種々の手法がある。例えば、最大エントロピーモデルと書き換え規則を用いて固有表現を抽出する手法がある(参考文献(3)参照)。 In addition to the above-described method, there are various methods for extracting the proper expression. For example, there is a technique for extracting a specific expression using a maximum entropy model and a rewrite rule (see reference (3)).
参考文献(3):内元清貴,馬青,村田真樹,小作浩美,内山将夫,井佐原均,最大エントロピーモデルと書き換え規則に基づく固有表現抽出,言語処理学会誌, Vol.7, No.2, 2000 Reference (3): Kiyotaka Uchimoto, Maoi, Maki Murata, Hiromi Osaku, Masao Uchiyama, Hitoshi Isahara, Named Expression Extraction Based on Maximum Entropy Model and Rewriting Rules, Journal of the Language Processing Society, Vol.7, No.2 , 2000
また、例えば、以下の参考文献(4)に、サポートベクトルマシンを用いて日本語固有表現抽出を行う手法について記載されている。 Further, for example, the following reference (4) describes a technique for extracting Japanese proper expressions using a support vector machine.
参考文献(4):山田寛康,工藤拓,松本裕治,Support Vector Machineを用いた日本語固有表現抽出,情報処理学会論文誌, Vol.43, No.1", 2002
(2)作成したルールを用いる手法
人手でルールを作って固有表現を取り出すという方法もある。
Reference (4): Hiroyasu Yamada, Taku Kudo, Yuji Matsumoto, Extracting Japanese Named Expressions Using Support Vector Machine, Journal of Information Processing Society of Japan, Vol.43, No.1 ", 2002
(2) A method using a created rule There is also a method of manually creating a rule to extract a specific expression.
例えば、
名詞+「さん」だと人名とする
名詞+「首相」だと人名とする
名詞+「町」だと地名とする
名詞+「市」だと地名とする
などである。
For example,
Noun + “san” is the name of the person + “prime” is the name of the person + “town” is the name of the place + “city” is the place of name.
上記の固有表現抽出技術は、人名や地名を抽出する場合を例にとって説明したが、本発明の実施の形態において、単位表現、時間表現、項目表現をそれぞれ固有表現として扱い、上記の固有表現抽出技術を用いて、単位表現、時間表現、項目表現を抽出する構成を採ってもよい。 Although the above-described specific expression extraction technique has been described by taking the case of extracting a person name or a place name as an example, in the embodiment of the present invention, unit expression, time expression, and item expression are treated as specific expressions, respectively You may take the structure which extracts a unit expression, a time expression, and item expression using a technique.
次に、今扱っている分野の記事群で主たる役割を果たす主要な単位表現、時間表現、項目表現を取り出す。例えば、対象の記事群全体に万遍なく高頻度に出現する該当表現を主要な表現として抽出する。 Next, the main unit expressions, time expressions, and item expressions that play the main role in the articles in the field that we are dealing with are extracted. For example, a corresponding expression that appears uniformly and frequently in the entire target article group is extracted as a main expression.
具体的には、主要な表現の抽出には、以下の式(1)〜式(3)に示すようなScore(スコア)の値を用い、スコアの値が大きいものほど主要な表現であると判断して、主要な表現を抽出する。
(1)OkapiのTF項の式
Specifically, for the extraction of the main expression, the score (score) values as shown in the following formulas (1) to (3) are used, and the higher the score value, the more the main expression. Judgment and extract main expressions.
(1) Okapi's TF term equation
(2)総頻度 (2) Total frequency
(3)総出現記事数 (3) Total number of appearing articles
ただし、iは記事の番号、Docsは記事の番号の集合、TFi は記事iでの表現の出現回数、li は記事iの長さ、Δは記事群Docsにおける記事の平均の長さを意味する。OkapiのTF項の式は、複数の記事に万遍なく出現しなおかつ頻度が大きい表現のスコアを大きくする効果がある。なお、記事の長さとは、例えば、記事に含まれる単語数や文字数である。 Where i is the article number, Docs is the set of article numbers, TF i is the number of appearances of the expression in article i, l i is the length of article i, and Δ is the average length of articles in article group Docs. means. The expression of the TF term of Okapi has the effect of increasing the score of an expression that appears uniformly in a plurality of articles and has a high frequency. The length of the article is, for example, the number of words or characters included in the article.
項目表現については、長い文字列を優先して取ってくることができるように、TFi を記事iでの表現の出現回数とせずに、記事iでの表現の出現回数とその表現の文字列長の積とする方法も利用した。 For the items representation, a long string so that it can fetch give priority to, without the number of occurrences of the expression of the TF i article i, the string of the number of occurrences and its representation of the representation of the article i The long product method was also used.
また、本発明の実施の形態においては、式(1)の値にIDFすなわちlogN/DFを乗じた値、式(2)の値に上記IDFを乗じた値、式(3)の値に上記IDFを乗じた値を各スコアの値としてもよい。ここで、Nは図示しない大規模コーパス中の全記事数、DFは、例えば、当該大規模コーパス中において当該表現が出現した記事数を意味する。 In the embodiment of the present invention, the value obtained by multiplying the value of equation (1) by IDF, that is, log N / DF, the value of equation (2) by the IDF, and the value of equation (3) by the above A value obtained by multiplying IDF may be used as the value of each score. Here, N means the total number of articles in a large-scale corpus (not shown), and DF means the number of articles in which the expression appears in the large-scale corpus, for example.
本発明の実施の形態においては、主要表現抽出部11は、例えば、算出されたスコア値が最も高い表現を主要表現として抽出する。主要表現抽出部11は、例えば、算出されたスコア値が所定の閾値以上の表現を主要表現として抽出してもよい。また、主要表現抽出部11は、例えば、算出されたスコア値が高いものから所定の個数の表現を主要表現として抽出してもよい。また、主要表現抽出部11は、例えば、抽出された表現を、スコア値について降順または昇順にソートして出力する構成を採ってもよい。
In the embodiment of the present invention, the main
本発明の実施の形態において、例えば、主要単位表現抽出部111は、図2(A)に示すような、単位表現抽出手段200、スコア値算出手段201、主要単位表現抽出手段202を備える。単位表現抽出手段200は、関連記事DB14中の記事群から単位表現を抽出する。スコア値算出手段201は、抽出した単位表現についてのスコア値を算出する。主要単位表現抽出手段202は、算出されたスコア値に基づいて、主要単位表現を抽出する。
In the embodiment of the present invention, for example, the main unit
また、例えば、主要時間表現抽出部112は、図2(B)に示すような、時間表現抽出手段300、スコア値算出手段301、主要時間表現抽出手段302を備える。時間表現抽出手段300は、関連記事DB14中の記事群から時間表現を抽出する。スコア値算出手段301は、抽出した時間表現についてのスコア値を算出する。主要時間表現抽出手段302は、算出されたスコア値に基づいて、主要時間表現を抽出する。
Further, for example, the main time
また、例えば、主要項目表現抽出部113は、図2(C)に示すような、項目表現抽出手段400、スコア値算出手段401、主要項目表現抽出手段402を備える。項目表現抽出手段400は、関連記事DB14中の記事群から項目表現を抽出する。スコア値算出手段401は、抽出した項目表現についてのスコア値を算出する。主要項目表現抽出手段402は、算出されたスコア値に基づいて、主要項目表現を抽出する。
(動向情報対抽出部12)
動向情報対抽出部12は、対象の記事群において、主要表現抽出部11において取り出した表現が例えば同時に出現している箇所を特定し、その箇所に記載されている主要表現対に基づいて、動向情報対を抽出する。すなわち、動向情報対抽出部12は、例えば、対象の記事群において主要単位表現と主要時間表現と主要項目表現とが同時に出現している部分に記載されている、主要単位表現と主要単位表現に対応する数値とからなる数値表現と、主要時間表現と、主要項目表現との対を、動向情報対として抽出する動向情報対抽出手段である。
For example, the main item
(Trend information pair extraction unit 12)
The trend information
本発明の実施の形態においては、例えば、句点、改行、文書の切れ目を示す特殊記号を切れ目とし、これらをはさまずに同時に単位表現、時間表現、項目表現が出現した箇所を、同時に出現した箇所とする。また、例えば、一記事につき、動向情報対は一つとし、記事中で最も最初に現れた動向情報対のみを取り出す。また、単位表現と連接した数値と単位表現を組み合わせたものを数値表現として取り出す。 In the embodiment of the present invention, for example, a special symbol indicating a punctuation mark, a line feed, or a document break is used as a break, and a unit expression, a time expression, and an item expression appear at the same time without intervening these. A place. For example, for each article, there is one trend information pair, and only the trend information pair that appears first in the article is extracted. Further, a combination of a unit expression and a numerical value connected to the unit expression is taken out as a numerical expression.
本発明の実施の形態においては、一記事中に複数の動向情報対が記述されていることもあるので、動向情報対抽出部12は、複数の動向情報対を取り出す構成を採ってもよい。また、本発明の実施の形態においては、動向情報対抽出部12は、例えば単位表現、時間表現、項目表現がより近接して出現している箇所の情報を重視して、その箇所に記載されている主要表現対に基づいて、動向情報対を抽出する構成を採ってもよい。例えば、単位表現、時間表現、項目表現それぞれの間の文字数または単語数が所定の閾値以下である箇所に記載されている主要表現対に基づいて、動向情報対を抽出してもよい。
In the embodiment of the present invention, since a plurality of trend information pairs may be described in one article, the trend information
すなわち、動向情報対抽出部12は、例えば、対象の記事群において主要単位表現と主要時間表現と主要項目表現とがより近接して出現している部分に記載されている、主要単位表現と主要単位表現に対応する数値とからなる数値表現と、主要時間表現と、主要項目表現との対を、動向情報対として抽出する動向情報対抽出手段である。
In other words, the trend information
また、本発明の実施の形態においては、後述するように、機械学習の方法を利用して、動向情報対を取り出す構成を採ってもよい。 In the embodiment of the present invention, as described later, a configuration may be adopted in which trend information pairs are extracted using a machine learning method.
また、本発明の実施の形態においては、主要表現抽出部11が複数の主要項目表現を抽出した場合、動向情報対抽出部12は、例えば、対象の記事群中の一記事中において当該複数の主要項目表現が同時に出現すること等を条件に加えて、動向情報対を抽出する構成を採ってもよい。
(主要動向情報対抽出・表示部13)
主要動向情報対抽出・表示部13では、対象の記事群において、動向情報対抽出部12において抽出した動向情報対を整理して、グラフ化または強調表示したテキストで提示する。動向情報対の時間表現を横軸に、数値表現を縦軸にしたグラフを作成する。また、動向情報対を取り出した文を、関連記事DB14中の記事群から抽出して、その文において動向情報対を強調表示する。
In the embodiment of the present invention, when the main
(Main trend information pair extraction / display unit 13)
The main trend information pair extraction /
また、本発明の実施の形態においては、抽出した文において、複数の動向情報対がある場合は、例えば、最初に出現している動向情報対を、当該動向情報対に含まれる数量表現、時間表現、項目表現以外の数量表現、時間表現、項目表現と区別して表示してもよい。例えば、例えば、最初に出現している動向情報対を二重線で、当該動向情報対に含まれる数量表現、時間表現、項目表現以外の数量表現、時間表現、項目表現を一重線で強調表示するようにしてもよい。 In the embodiment of the present invention, when there are a plurality of trend information pairs in the extracted sentence, for example, the trend information pair that appears first is represented by the quantity expression, time, and time included in the trend information pair. It may be displayed separately from expressions, quantity expressions other than item expressions, time expressions, and item expressions. For example, for example, the first trend information pair that appears is a double line, and the quantity expression, time expression, and item expression other than the item expression included in the trend information pair are highlighted with a single line. You may make it do.
また、本発明の実施の形態において、主要動向情報対抽出・表示部13は、主要表現抽出部11が複数の主要単位表現、主要時間表現、主要項目表現を取り出た場合、それら複数の表現のすべての組み合わせ分のデータに基づいて動向情報対抽出部12が抽出した複数種類の動向情報対において、より多く抽出された動向情報対ほど有用な動向情報として判断して、当該動向情報対を主要動向情報対とする。例えば、最も多く抽出された動向情報対を主要動向情報として抽出する。そして、主要動向情報対抽出・表示部13は、抽出された主要動向情報対をグラフ化または強調表示する。
Further, in the embodiment of the present invention, the main trend information pair extraction /
例えば、主要表現抽出部11によって、主要単位表現としてa1とa2が、主要時間表現としてb1とb2が、主要項目表現としてc1とc2が抽出されたとする。抽出されたこれら複数の表現の組み合わせによって、(a1,b1,c1),(a1,b1,c2),(a1,b2,c1),(a1,b2,c2),(a2,b1,c1),(a2,b1,c2),(a2,b2,c1),(a2,b2,c2)といった8組の表現対が得られる。動向情報対抽出部12は、例えば、対象とする記事群から、(a1,b1,c1)という表現対が同時に出現している箇所に記載されている表現対を動向情報対として抽出する。動向情報対抽出部12は、同様の方法で、各表現対に基づく動向情報対を抽出する。そして、例えば、抽出された動向情報対の数が最も多かった表現対に基づいて抽出された動向情報対を主要動向情報対とする。
For example, assume that the main
ここまでの記述では、それぞれの部分的な構成要素は自動で行うことになっているが、本発明の実施の形態は、例えば、主要表現抽出部11の構成を取り除き、動向情報対抽出部12が、ユーザによって入力された単位表現、時間表現、項目表現に基づいて動向情報対を抽出し、主要動向情報対抽出・表示部13が動向情報対を表示する構成を採ってもよい。また、本発明の実施の形態では、主要表現抽出部11が、抽出された主要な単位表現、時間表現、項目表現をユーザに提示(表示)し、ユーザがその提示(表示)されたものの中から主要な単位表現、時間表現、項目表現を選択し、動向情報対抽出部12が、選択された主要な単位表現、時間表現、項目表現に基づいて動向情報対を抽出し、主要動向情報対抽出・表示部13が、動向情報対をグラフ化して表示してもよい。また、本発明の実施の形態においては、逆に、主要表現抽出部11と動向情報対抽出部12による処理を通じて、ある程度、動向情報対を抽出してから、それを元の新聞記事データと人手で照らし合わせて抽出情報を修正、改善した後に、グラフ化して表示する構成にしてもよい。情報抽出・表示装置1は、複数の構成要素に分割して構築しており、情報抽出・表示装置1の構成の一部を人手と置き換えたり、情報抽出・表示装置1の一部だけを単独で利用したりすることが可能である。
In the description so far, each partial component is automatically performed. However, in the embodiment of the present invention, for example, the configuration of the main
図3は、本発明の実施の形態において、機械学習の手法を用いて動向情報対を抽出する構成を採る場合の、動向情報対抽出部12の構成例を示す図である。動向情報対抽出部12は、教師データ記憶手段121、解−素性対抽出手段122、機械学習手段123、学習結果記憶手段124、表現対抽出手段125、素性抽出手段126、解推定手段127、動向情報対抽出手段128を備える。
FIG. 3 is a diagram illustrating a configuration example of the trend information
教師データ記憶手段121は、機械学習処理において使用される教師データとなるテキストデータを記憶する。例えば、数量表現をai(i=1,2,3,...)、時間表現をbi(i=1,2,3,...)、項目表現をci(i=1,2,3,...)とすると、教師データとして、テキストデータの文中に出現しているai、bi、ciの対(表現対)を問題、動向情報対として抽出するべき表現対であるか否かの情報を解とする事例を記憶する。具体的には、テキストデータ中に現れるあらゆるai、bi、ciの対について、動向情報対として抽出すべき表現対(正例)であるか、抽出するべきでない表現対(負例)かのいずれかの解を示すタグを人手によって付与する。例えば、図4中に示すテキストデータ中の表現a1,a2,b1,b2,c1,c2に基づいて構成される表現対である(a1,b1,c1),(a1,b2,c1),...(a2,b2,c2)のそれぞれについて、正例か負例かの解を示すタグを付与する。
The teacher
すなわち、本発明の実施の形態においては、例えば、
(a1,b1,c1)−解 「正例」
(a1,b2,c1)−解 「負例」
・
・
・
(a2,b2,c2)−解 「負例」
といった、表現対と解との組を生成する。
That is, in the embodiment of the present invention, for example,
(A1, b1, c1)-solution "positive example"
(A1, b2, c1)-solution "negative example"
・
・
・
(A2, b2, c2)-solution "negative example"
A pair of expression pair and solution is generated.
解−素性対抽出手段122は、教師データ記憶手段121内に記憶されているテキストデータの事例から、解と素性の集合との組を抽出する。素性は、機械学習処理で使用する情報である。解−素性対抽出手段122は、素性として、例えば、あるテキストデータ中の、解が付与された各表現対についての、aiとbi、biとci、aiとciの間の距離(文字または単語数等)や、テキストデータ中におけるaiとbiとciの表現対を含む範囲や、ai、bi、ciそれぞれの前後の品詞情報等を用いる。また、解−素性対抽出手段122は、例えば、ai,bi,ciがテキストデータのタイトルに含まれるか等の情報や、aiとbi、biとci、aiとciの間に出現する品詞の情報や、aiが小数点を含むか、また、biが年、月、日か、また、ciが人名か地名かの情報を素性としてもよい。また、本発明の実施の形態においては、記事中におけるai、bi、ciそれぞれの位置情報を素性としてもよい。例えば、新聞等の記事においては、最初に出現する主要表現が重要となることが多いからである。
The solution-feature
機械学習手段123は、解−素性対抽出手段122によって抽出された解と素性の集合との組から、どのような素性のときにどのような解になりやすいかを、教師あり機械学習法により学習する。その学習結果は、学習結果記憶手段124内に記憶される。
The machine learning means 123 uses a supervised machine learning method to determine what kind of solution is likely to be generated from a set of the solution extracted by the solution-feature pair extraction means 122 and the feature set. learn. The learning result is stored in the learning
表現対抽出手段125は、主要表現抽出部11によって抽出された主要表現(例えば、単位表現、時間表現、項目表現)を用いて、関連記事DB14中の各記事に含まれるai(数量表現)、bi(時間表現)、ci(項目表現)という3種類の表現のあらゆる組み合わせ(表現対)を抽出する。なお、単位表現と連接して記事中に出現する数値と当該単位表現との組み合わせを数量表現とする。
The expression
素性抽出手段126は、解−素性対抽出手段122と同様の処理によって、表現対抽出手段125によって抽出された各表現対について、素性を抽出する。
The
解推定手段127は、学習結果記憶手段124の学習結果を参照して、各表現対について、その素性の集合の場合に、どのような解(分類先)になりやすいかの度合いを推定する。
The
動向情報対抽出手段128は、解推定手段127の推定結果に基づいて、動向情報対として抽出すべき表現対(正例)となる度合いが高いと推定されたものを、動向情報対として抽出する。
The trend information
ここで、機械学習手段123による機械学習の手法について説明する。機械学習の手法は、問題−解の組のセットを多く用意し、それで学習を行ない、どういう問題のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときも解を推測できるようにする方法である(例えば、下記の参考文献(5)〜参考文献(7)参照)。 Here, a machine learning method by the machine learning means 123 will be described. The machine learning method prepares many sets of problem-solution pairs, learns them, learns what kind of solution the problem becomes, and uses the learning result to create a new problem. This is a method that makes it possible to guess the solution (for example, see the following references (5) to (7)).
参考文献(5):村田真樹,機械学習に基づく言語処理,龍谷大学理工学部.招待講演.2004. http://www2.nict.go.jp/jt/a132/members/murata/ps/rk1-siryou.pdf
参考文献(6):サポートベクトルマシンを用いたテンス・アスペクト・モダリティの日英翻訳,村田真樹,馬青,内元清貴,井佐原均,電子情報通信学会言語理解とコミュニケーション研究会 NLC2000-78 ,2001年.
参考文献(7):SENSEVAL2J辞書タスクでのCRLの取り組み,村田真樹,内山将夫,内元清貴,馬青,井佐原均,電子情報通信学会言語理解とコミュニケーション研究会 NLC2001-40 ,2001年.
どういう問題のときに、という、問題の状況を機械に伝える際に、素性(解析に用いる情報で問題を構成する各要素)というものが必要になる。問題を素性によって表現するのである。例えば、日本語文末表現の時制の推定の問題において、問題:「彼が話す。」−−−解「現在」が与えられた場合に、素性の一例は、「彼が話す。」「が話す。」「話す。」「す」「。」となる。
Reference (5): Masaki Murata, Language Processing Based on Machine Learning, Faculty of Science and Engineering, Ryukoku University. Invited lecture. 2004.http: //www2.nict.go.jp/jt/a132/members/murata/ps/rk1-siryou.pdf
Reference (6): Japanese-English translation of tense aspect modality using support vector machine, Maki Murata, Mao, Kiyotaka Uchimoto, Hitoshi Isahara, IEICE Language Understanding and Communication Study Group NLC2000-78, 2001 Year.
Reference (7): CRL's efforts in the SENSEVAL2J dictionary task, Masaki Murata, Masao Uchiyama, Kiyotaka Uchimoto, Ma Aoi, Hitoshi Isahara, IEICE Language Understanding and Communication Study Group NLC2001-40, 2001.
In order to convey the problem situation to the machine, what kind of problem is required, features (elements constituting the problem with information used for analysis) are required. The problem is expressed by the feature. For example, in the problem of estimating the tense of Japanese sentence ending expressions, the problem: “He speaks.” --- If the solution “present” is given, an example of a feature is “He speaks.” . "" Speaking. "" Su "". "
すなわち、機械学習の手法は、素性の集合−解の組のセットを多く用意し、それで学習を行ない、どういう素性の集合のときにどういう解になるかを学習し、その学習結果を利用して、新しい問題のときもその問題から素性の集合を取り出し、その素性の場合の解を推測する方法である。 In other words, the machine learning method prepares many sets of feature set-solution pairs, performs learning, learns what kind of solution the feature set becomes, and uses the learning result. This is a method of extracting a set of features from a new problem and inferring a solution in the case of the feature.
機械学習手段123は、機械学習の手法として、例えば、k近傍法、シンプルベイズ法、決定リスト法、最大エントロピー法、サポートベクトルマシン法などの手法を用いる。
The
k近傍法は、最も類似する一つの事例のかわりに、最も類似するk個の事例を用いて、このk個の事例での多数決によって分類先(解)を求める手法である。kは、あらかじめ定める整数の数字であって、一般的に、1から9の間の奇数を用いる。 The k-nearest neighbor method is a method for obtaining a classification destination (solution) by using the k most similar cases instead of the most similar case, and by majority decision of the k cases. k is a predetermined integer number, and generally an odd number between 1 and 9 is used.
シンプルベイズ法は、ベイズの定理にもとづいて各分類になる確率を推定し、その確率値が最も大きい分類を求める分類先とする方法である。 The Simple Bayes method is a method of estimating the probability of each classification based on Bayes' theorem and determining the classification having the highest probability value as a classification destination.
シンプルベイズ法において、文脈bで分類aを出力する確率は、以下の式(4)で与えられる。 In the simple Bayes method, the probability of outputting the classification a in the context b is given by the following equation (4).
ただし、ここで文脈bは、あらかじめ設定しておいた素性fj (∈F,1≦j≦k)の集合である。p(b)は、文脈bの出現確率である。ここで、分類aに非依存であって定数のために計算しない。P(a)(ここでPはpの上部にチルダ)とP(fi |a)は、それぞれ教師データから推定された確率であって、分類aの出現確率、分類aのときに素性fi を持つ確率を意味する。P(fi |a)として最尤推定を行って求めた値を用いると、しばしば値がゼロとなり、式(5)の値がゼロで分類先を決定することが困難な場合が生じる。そのため、スームージングを行う。ここでは、以下の式(6)を用いてスームージングを行ったものを用いる。 Here, the context b is a set of features f j (εF, 1 ≦ j ≦ k) set in advance. p (b) is the appearance probability of the context b. Here, since it is independent of the classification a and is a constant, it is not calculated. P (a) (where P is a tilde at the top of p) and P (f i | a) are the probabilities estimated from the teacher data, respectively, and the appearance probability of class a, and the feature f for class a means the probability of having i . When a value obtained by performing maximum likelihood estimation as P (f i | a) is used, the value often becomes zero, and it may be difficult to determine the classification destination because the value of Equation (5) is zero. Therefore, smoothing is performed. Here, what smoothed using the following formula | equation (6) is used.
ただし、freq(fi ,a)は、素性fi を持ちかつ分類がaである事例の個数、freq(a)は、分類がaである事例の個数を意味する。 Here, freq (f i , a) means the number of cases having the feature f i and the classification a, and freq (a) means the number of cases having the classification a.
決定リスト法は、素性と分類先の組とを規則とし、それらをあらかじめ定めた優先順序でリストに蓄えおき、検出する対象となる入力が与えられたときに、リストで優先順位の高いところから入力のデータと規則の素性とを比較し、素性が一致した規則の分類先をその入力の分類先とする方法である。 The decision list method uses features and combinations of classification destinations as rules, stores them in the list in a predetermined priority order, and when input to be detected is given, from the highest priority in the list This is a method in which input data is compared with the feature of the rule, and the classification destination of the rule having the same feature is set as the classification destination of the input.
決定リスト方法では、あらかじめ設定しておいた素性fj ( ∈F,1≦j≦k)のうち、いずれか一つの素性のみを文脈として各分類の確率値を求める。ある文脈bで分類aを出力する確率は以下の式によって与えられる。 In the decision list method, the probability value of each classification is obtained using only one of the features f j (εF, 1 ≦ j ≦ k) set in advance as a context. The probability of outputting classification a in a context b is given by
p(a|b)=p(a|fmax ) 式(7)
ただし、fmax は以下の式によって与えられる。
p (a | b) = p (a | fmax) Equation (7)
However, fmax is given by the following equation.
また、P(ai |fj )(ここでPはpの上部にチルダ)は、素性fj を文脈に持つ場合の分類ai の出現の割合である。 P (a i | f j ) (where P is a tilde at the top of p) is the rate of appearance of the classification a i when the feature f j is in the context.
最大エントロピー法は、あらかじめ設定しておいた素性fj (1≦j≦k)の集合をFとするとき、以下所定の条件式(式(9))を満足しながらエントロピーを意味する式(10)を最大にするときの確率分布p(a,b)を求め、その確率分布にしたがって求まる各分類の確率のうち、最も大きい確率値を持つ分類を求める分類先とする方法である。 In the maximum entropy method, when a set of preset features f j (1 ≦ j ≦ k) is F, an expression (entropy) that satisfies a predetermined conditional expression (equation (9)) below ( In this method, the probability distribution p (a, b) when 10) is maximized is obtained, and the classification having the largest probability value is obtained from the probabilities of the respective classifications obtained according to the probability distribution.
ただし、A、Bは分類と文脈の集合を意味し、gj (a,b)は文脈bに素性fj があって、なおかつ分類がaの場合1となり、それ以外で0となる関数を意味する。また、P(ai |fj )(ここでPはpの上部にチルダ)は、既知データでの(a,b)の出現の割合を意味する。 However, A and B mean a set of classifications and contexts, and g j (a, b) is a function that is 1 if the context b has a feature f j and the classification is a, and is 0 otherwise. means. Further, P (a i | f j ) (where P is a tilde at the top of p) means the rate of appearance of (a, b) in the known data.
式(9)は、確率pと出力と素性の組の出現を意味する関数gをかけることで出力と素性の組の頻度の期待値を求めることになっており、右辺の既知データにおける期待値と、左辺の求める確率分布に基づいて計算される期待値が等しいことを制約として、エントロピー最大化( 確率分布の平滑化) を行なって、出力と文脈の確率分布を求めるものとなっている。最大エントロピー法の詳細については、以下の参考文献(8)および参考文献(9)に記載されている。 Formula (9) is to obtain the expected value of the frequency of the output and feature pair by multiplying the probability p and the function g meaning the appearance of the pair of output and feature. And the expected value calculated based on the probability distribution calculated on the left side is the constraint, and entropy maximization (smoothing of the probability distribution) is performed to determine the probability distribution of the output and the context. Details of the maximum entropy method are described in the following references (8) and (9).
参考文献(8):Eric Sven Ristad, Maximum Entropy Modeling for Natural Language,(ACL/EACL Tutorial Program, Madrid, 1997
参考文献(9):Eric Sven Ristad, Maximum Entropy Modeling Toolkit, Release 1.6beta, (http://www.mnemonic.com/software/memt,1998) )
サポートベクトルマシン法は、空間を超平面で分割することにより、二つの分類からなるデータを分類する手法である。
Reference (8): Eric Sven Ristad, Maximum Entropy Modeling for Natural Language, (ACL / EACL Tutorial Program, Madrid, 1997
(9): Eric Sven Ristad, Maximum Entropy Modeling Toolkit, Release 1.6beta, (http://www.mnemonic.com/software/memt,1998))
The support vector machine method is a method of classifying data composed of two classifications by dividing a space by a hyperplane.
図5にサポートベクトルマシン法のマージン最大化の概念を示す。図5において、白丸は正例、黒丸は負例を意味し、実線は空間を分割する超平面を意味し、破線はマージン領域の境界を表す面を意味する。図5(A)は、正例と負例の間隔が狭い場合(スモールマージン)の概念図、図5(B)は、正例と負例の間隔が広い場合(ラージマージン)の概念図である。 FIG. 5 shows the concept of margin maximization in the support vector machine method. In FIG. 5, a white circle means a positive example, a black circle means a negative example, a solid line means a hyperplane that divides the space, and a broken line means a surface that represents the boundary of the margin area. 5A is a conceptual diagram when the interval between the positive example and the negative example is narrow (small margin), and FIG. 5B is a conceptual diagram when the interval between the positive example and the negative example is wide (large margin). is there.
このとき、二つの分類が正例と負例からなるものとすると、学習データにおける正例と負例の間隔(マージン) が大きいものほどオープンデータで誤った分類をする可能性が低いと考えられ、図5(B)に示すように、このマージンを最大にする超平面を求めそれを用いて分類を行なう。 At this time, if the two classifications consist of positive and negative examples, the larger the interval (margin) between the positive and negative examples in the learning data, the less likely it is to make an incorrect classification with open data. As shown in FIG. 5B, a hyperplane that maximizes this margin is obtained, and classification is performed using it.
基本的には上記のとおりであるが、通常、学習データにおいてマージンの内部領域に少数の事例が含まれてもよいとする手法の拡張や、超平面の線形の部分を非線型にする拡張(カーネル関数の導入) がなされたものが用いられる。 Basically, it is as described above. Usually, an extension of the method that the training data may contain a small number of cases in the inner area of the margin, or an extension that makes the linear part of the hyperplane nonlinear ( The one with the introduction of the kernel function is used.
この拡張された方法は、以下の識別関数を用いて分類することと等価であり、その識別関数の出力値が正か負かによって二つの分類を判別することができる。 This extended method is equivalent to classification using the following discriminant function, and the two classes can be discriminated depending on whether the output value of the discriminant function is positive or negative.
ただし、xは識別したい事例の文脈(素性の集合) を、xi とyj (i=1,…,l,yj ∈{1,−1})は学習データの文脈と分類先を意味し、関数sgnは、
sgn(x)=1(x≧0)
−1(otherwise )
であり、また、各αi は式(13)と式(14)の制約のもと式(12)を最大にする場合のものである。
Where x is the context (set of features) to be identified, and x i and y j (i = 1,..., L, y j ∈ {1, -1}) mean the context and classification destination of the learning data. And the function sgn is
sgn (x) = 1 (x ≧ 0)
-1 (otherwise)
Each α i is for maximizing the expression (12) under the constraints of the expressions (13) and (14).
また、関数Kはカーネル関数と呼ばれ、様々なものが用いられるが、本形態では以下の多項式のものを用いる。 The function K is called a kernel function, and various functions are used. In this embodiment, the following polynomial is used.
K(x,y)=(x・y+1)d 式(15)
C、dは実験的に設定される定数である。例えば、Cはすべての処理を通して1に固定した。また、dは、1と2の二種類を試している。ここで、αi >0となるxi は、サポートベクトルと呼ばれ、通常、式(11)の和をとっている部分は、この事例のみを用いて計算される。つまり、実際の解析には学習データのうちサポートベクトルと呼ばれる事例のみしか用いられない。
K (x, y) = (x · y + 1) d Equation (15)
C and d are constants set experimentally. For example, C was fixed at 1 throughout all treatments. Moreover, two types of 1 and 2 are tried for d. Here, x i where α i > 0 is called a support vector, and the portion taking the sum of Expression (11) is usually calculated using only this case. That is, only actual cases called support vectors are used for actual analysis.
なお、拡張されたサポートベクトルマシン法の詳細については、以下の参考文献(10)および参考文献(11)に記載されている。 The details of the extended support vector machine method are described in the following references (10) and (11).
参考文献(10):Nello Cristianini and John Shawe-Taylor, An Introduction to Support Vector Machines and other kernel-based learning methods,(Cambridge University Press,2000)
参考文献(11):Taku Kudoh, Tinysvm:Support Vector machines,(http://cl.aist-nara.ac.jp/taku-ku//software/Tiny SVM/index.html,2000)
サポートベクトルマシン法は、分類の数が2個のデータを扱うものである。したがって、分類の数が3個以上の事例を扱う場合には、通常、これにペアワイズ法またはワンVSレスト法などの手法を組み合わせて用いることになる。
Reference (10): Nello Cristianini and John Shawe-Taylor, An Introduction to Support Vector Machines and other kernel-based learning methods, (Cambridge University Press, 2000)
Reference (11): Taku Kudoh, Tinysvm: Support Vector machines, (http://cl.aist-nara.ac.jp/taku-ku//software/Tiny SVM / index.html, 2000)
The support vector machine method handles data with two classifications. Therefore, when handling cases with three or more classifications, a pair-wise method or a one-VS rest method is usually used in combination with this.
ペアワイズ法は、n個の分類を持つデータの場合に、異なる二つの分類先のあらゆるペア(n(n−1)/2個)を生成し、各ペアごとにどちらがよいかを二値分類器、すなわちサポートベクトルマシン法処理モジュールで求めて、最終的に、n(n−1)/2個の二値分類による分類先の多数決によって、分類先を求める方法である。 In the pairwise method, in the case of data having n classifications, every pair (n (n-1) / 2) of two different classification destinations is generated, and a binary classifier indicates which is better for each pair. That is, it is obtained by the support vector machine method processing module and finally obtains the classification destination by majority decision of the classification destination by n (n−1) / 2 binary classification.
ワンVSレスト法は、例えば、a、b、cという三つの分類先があるときは、分類先aとその他、分類先bとその他、分類先cとその他、という三つの組を生成し、それぞれの組についてサポートベクトルマシン法で学習処理する。そして、学習結果による推定処理において、その三つの組のサポートベクトルマシンの学習結果を利用する。推定するべき候補が、その三つのサポートベクトルマシンではどのように推定されるかを見て、その三つのサポートベクトルマシンのうち、その他でないほうの分類先であって、かつサポートベクトルマシンの分離平面から最も離れた場合のものの分類先を求める解とする方法である。例えば、ある候補が、「分類先aとその他」の組の学習処理で作成したサポートベクトルマシンにおいて分離平面から最も離れた場合には、その候補の分類先は、a と推定する。 For example, when there are three classification destinations a, b, and c, the one VS rest method generates three sets of classification destination a and other, classification destination b and other, classification destination c and other, The learning process is performed on the set of the support vector machine method. Then, in the estimation process based on the learning result, the learning results of the three sets of support vector machines are used. See how the three support vector machines are estimated as candidates to be estimated. Of the three support vector machines, it is the non-other classification target and the separation plane of the support vector machine. This is a method for obtaining a classification destination of a thing farthest from the object. For example, when a candidate is farthest from the separation plane in the support vector machine created by the learning process of “classification destination a and other”, the candidate classification destination is estimated as a.
解推定手段127が推定する、各表現対についての、どのような解(分類先)になりやすいかの度合いの求め方は、機械学習手段123が機械学習の手法として用いる様々な方法によって異なる。
The method of determining the level of the solution (classification destination) that is likely to be the solution (classification destination) for each expression pair estimated by the
例えば、本発明の実施の形態において、機械学習手段123が、機械学習の手法としてk近傍法を用いる場合、機械学習手段123は、教師データの事例同士で、その事例から抽出された素性の集合のうち重複する素性の割合(同じ素性をいくつ持っているかの割合)にもとづく事例同士の類似度を定義して、前記定義した類似度と事例とを学習結果情報として学習結果記憶手段124に記憶しておく。 For example, in the embodiment of the present invention, when the machine learning means 123 uses the k-nearest neighbor method as a machine learning technique, the machine learning means 123 sets the feature data extracted from the cases among the cases of the teacher data. The similarity between cases based on the ratio of overlapping features (the number of the same features) is defined, and the defined similarity and the case are stored in the learning result storage means 124 as learning result information. Keep it.
そして、解推定手段127は、表現対抽出手段125によって新しい表現対(の候補)が抽出されたときに、学習結果記憶手段124において定義された類似度と事例を参照して、表現対抽出手段125によって抽出された表現対の候補について、その候補の類似度が高い順にk個の事例を学習結果記憶手段124の事例から選択し、選択したk個の事例での多数決によって決まった分類先を、表現対の候補の分類先(解)として推定する。すなわち、解推定手段127では、各表現対についての、どのような解(分類先)になりやすいかの度合いを、選択したk個の事例での多数決の票数、ここでは「抽出するべき」という分類が獲得した票数とする。
Then, when a new expression pair (candidate) is extracted by the expression
また、機械学習手法として、シンプルベイズ法を用いる場合には、機械学習手段123は、教師データの事例について、前記事例の解と素性の集合との組を学習結果情報として学習結果記憶手段124に記憶する。そして、解推定手段127は、表現対抽出手段125によって新しい表現対(の候補)が抽出されたときに、学習結果記憶手段124の学習結果情報の解と素性の集合との組をもとに、ベイズの定理にもとづいて素性抽出手段126で取得した表現対の候補の素性の集合の場合の各分類になる確率を算出して、その確率の値が最も大きい分類を、その表現対の候補の素性の分類(解)と推定する。すなわち、解推定手段127では、表現対の候補の素性の集合の場合にある解となりやすさの度合いを、各分類になる確率、ここでは「抽出するべき」という分類になる確率とする。
When the simple Bayes method is used as the machine learning method, the
また、機械学習手法として決定リスト法を用いる場合には、機械学習手段123は、教師データの事例について、素性と分類先との規則を所定の優先順序で並べたリストを学習結果記憶手段124に記憶する。そして、表現対抽出手段125によって新しい表現対(の候補)が抽出されたときに、解推定手段127は、学習結果記憶手段124のリストの優先順位の高い順に、抽出された表現対の候補の素性と規則の素性とを比較し、素性が一致した規則の分類先をその候補の分類先(解)として推定する。すなわち、解推定手段127では、表現対の候補の素性の集合の場合にある解となりやすさの度合いを、所定の優先順位またはそれに相当する数値、尺度、ここでは「抽出するべき」という分類になる確率のリストにおける優先順位とする。
When the decision list method is used as the machine learning method, the
また、機械学習手法として最大エントロピー法を使用する場合には、機械学習手段123は、教師データの事例から解となりうる分類を特定し、所定の条件式を満足しかつエントロピーを示す式を最大にするときの素性の集合と解となりうる分類の二項からなる確率分布を求めて学習結果記憶手段124に記憶する。そして、表現対抽出手段125によって新しい表現対(の候補)が抽出されたときに、解推定手段127は、学習結果記憶手段124の確率分布を利用して、抽出された表現対の候補の素性の集合についてその解となりうる分類の確率を求めて、最も大きい確率値を持つ解となりうる分類を特定し、その特定した分類をその候補の解と推定する。すなわち、解推定手段127では、表現対の候補の素性の集合の場合にある解となりやすさの度合いを、各分類になる確率、ここでは「抽出するべき」という分類になる確率とする。
When the maximum entropy method is used as the machine learning method, the machine learning means 123 specifies a class that can be a solution from the example of the teacher data, and maximizes an expression that satisfies a predetermined conditional expression and shows entropy. A probability distribution consisting of a set of features and a class that can be a solution is obtained and stored in the learning result storage means 124. When a new expression pair (candidate) is extracted by the expression
また、機械学習手法としてサポートベクトルマシン法を使用する場合には、機械学習手段123は、教師データの事例から解となりうる分類を特定し、分類を正例と負例に分割して、カーネル関数を用いた所定の実行関数にしたがって事例の素性の集合を次元とする空間上で、その事例の正例と負例の間隔を最大にし、かつ正例と負例を超平面で分割する超平面を求めて学習結果記憶手段124に記憶する。そして表現対抽出手段125によって新しい表現対(の候補)が抽出されたときに、解推定手段127は、学習結果記憶手段124の超平面を利用して、抽出された表現対の候補の素性の集合が超平面で分割された空間において正例側か負例側のどちらにあるかを特定し、その特定された結果にもとづいて定まる分類を、その候補の解と推定する。すなわち、解推定手段127では、表現対の候補の素性の集合の場合にある解となりやすさの度合いを、分離平面からの正例(抽出するべき表現対)の空間への距離の大きさとする。より詳しくは、抽出するべき表現対を正例、抽出するべきではない表現対を負例とする場合に、分離平面に対して正例側の空間に位置する事例が「抽出するべき事例」と判断され、その事例の分離平面からの距離をその事例の度合いとする。
When the support vector machine method is used as the machine learning method, the
図6は、本発明の実施の形態における情報抽出・表示処理フローの一例を示す図である。まず、情報抽出・表示装置1は、関連記事DB14中の記事群から主要表現を抽出する(ステップS1)。次に、情報抽出・表示装置1は、抽出された主要表現を用いて、動向情報対を抽出する(ステップS2)。そして、情報抽出・表示装置1は、抽出された情報動向対を表示する(ステップS3)。
(実験と考察)
(1)主要表現抽出
本発明の情報抽出・表示装置1を用いて、主要表現抽出の実験を行った。OkapiのTF項の式(式(1))を利用し、項目表現では、TFi を表現の出現回数とその表現の文字列長の積とする方法を利用した。本実験においては、台風に関連する記事群、大リーグに関連する記事群、政治動向に関連する記事群のそれぞれから主要表現を抽出した。その抽出結果を図7に示す。図7に示す表では、OkapiのTF項の式の値の大きかった上位5つの表現を示している。
FIG. 6 is a diagram showing an example of an information extraction / display processing flow in the embodiment of the present invention. First, the information extraction / display apparatus 1 extracts a main expression from an article group in the related article DB 14 (step S1). Next, the information extraction / display apparatus 1 extracts a trend information pair using the extracted main expression (step S2). Then, the information extraction / display device 1 displays the extracted information trend pair (step S3).
(Experiment and discussion)
(1) Main Expression Extraction Using the information extraction / display apparatus 1 of the present invention, an experiment of main expression extraction was performed. Okapi's TF term formula (formula (1)) is used, and item representation uses a method in which TF i is the product of the number of occurrences of the expression and the character string length of the expression. In this experiment, the main expressions were extracted from each of the articles related to the typhoon, the articles related to the major leagues, and the articles related to the political trend. The extraction result is shown in FIG. In the table shown in FIG. 7, the top five expressions having large values of the expression of the Okapi TF term are shown.
図7を見ると、それぞれその分野の主要な表現がうまく取り出せている。例えば、台風のデータだと、その主たる項目表現の「台風」が、また、何番目の台風かを示す単位表現の「号」が取り出せている。大リーグのデータだと、マグワイアとソーサのホームラン争いが世間を賑わせたころのデータを収集しており、うまくマグワイアとソーサを上位の方で抽出している。また、ホームラン争いで主要な単位表現となる「号」、「本」などもうまく抽出できている。政治動向のデータだと、項目表現として「内閣支持率」が単位表現として「%」がうまく抽出できている。 As shown in FIG. 7, the main expressions in each field are extracted well. For example, in the case of typhoon data, the main item expression "typhoon" and the unit expression "number" indicating the number of typhoon can be extracted. In the case of major league data, we have collected data when Maguire and Sosa's home run struggle became popular, and we have successfully extracted Maguire and Sosa at the top. In addition, “No.”, “Book”, etc., which are the main unit expressions in home run battles, can be extracted well. In the case of political trend data, “Category support rate” can be successfully extracted as an item expression and “%” as a unit expression.
ところで、台風のデータでは、「写真説明」という表現が上位に現れている。このことからおそらく台風のデータには台風による被害の写真がついていたと思われる。
(2)動向情報のグラフ化
本発明の情報抽出・表示装置1を用いて、動向情報のグラフ化の実験を行った。この実験は、主要表現抽出部11によって算出されたスコア値が最も高い単位表現、時間表現、項目表現を利用して、動向情報対抽出部12、主要動向情報対抽出・表示部13の処理を通じてグラフ化を行った。作成したグラフを図8(A)〜図8(C)に示す。本実験では、グラフ化にはExcelを用いた。ここでは、時間軸は得られた時間表現ごとに表示したが、実際の時間の間隔で表示してもよい。また時間表現としては、日、月までの情報しか自動で得られない場合は、人手で、月、年の情報を付与した。
By the way, in the typhoon data, the expression “photo description” appears at the top. From this, it is probable that the typhoon data was accompanied by a picture of the damage caused by the typhoon.
(2) Graphing trend information Using the information extraction / display device 1 of the present invention, an experiment for graphing trend information was performed. This experiment uses the unit expression, time expression, and item expression with the highest score value calculated by the main
台風のデータでは、主要表現抽出部11で単位表現として「号」を、時間表現として「日」を、項目表現として「台風」を取り出した。これを利用してグラフを作成した。動向情報対抽出部12において、これら三つの表現が同時に出現している箇所を抽出した。その取り出したデータにおいて、時間表現を横軸、単位表現の「号」の前についていた数字を縦軸にとってグラフを作成した。台風のデータは、関連記事DB14中の関連記事において9月、10月ごろのデータしかなく、それ以外の時期の情報はわからないが、台風のデータについての図8(A)のグラフは、9月、10月について、いつ何号の台風が来たかを把握するのに役立つ。また、98年と99年のデータを見比べると、99年の方が台風の数も多かったことがわかる。
In the typhoon data, the main
大リーグのデータでは、主要表現抽出部11で単位表現として「号」を、時間表現として「日」を、項目表現として「マグワイア」を取り出した。これを利用してグラフを作成した。動向情報対抽出部12において、これら三つの表現が同時に出現している箇所を抽出した。その取り出したデータにおいて、時間表現を横軸、単位表現の「号」の前についていた数字を縦軸にとってグラフを作成した。大リーグのデータは、関連記事DB14中の関連記事において、元々8月以降のデータしかなく、それ以外の時期の情報はわからないが、図8(B)のグラフは、8月以降について、マグワイアがどのような感じでホームランを打っていったかがわかる。
In the major league data, the main
政治動向のデータでは、主要表現抽出部11で単位表現として「%」を、時間表現として「月」を、項目表現として「内閣支持率」を最上位で取り出した。これを利用してグラフを作成した。動向情報対抽出部12において、これら三つの表現が同時に出現している箇所を抽出した。その取り出したデータにおいて、時間表現を横軸、単位表現の「%」の前についていた数字を縦軸にとってグラフを作成した。例えば、関連記事DB14中の内閣支持率に関する関連記事は98年、99年のデータであり、図8(C)のグラフは、小渕内閣の内閣支持率を示すグラフになっている。支持率は起伏があるものの、概ね上昇傾向にあることがわかる。
In the data on political trends, the main
また、ここでは実験結果を省略するが、主要表現抽出部11において、複数の単位表現、時間表現、項目表現を取り出し、それら複数の表現のすべての組み合わせ分のデータにおいて、動向情報対抽出部12を用いて複数種類の動向情報対を抽出し、それら複数種類の動向情報対において、多く抽出できた動向情報対ほど有用な動向情報として判断して抽出する枠組みによる実験も行っている。有用な単位表現、時間表現、項目表現を最上位で抽出できない場合にこの枠組みが役に立った。
(3)文抽出と強調表示
本発明の情報抽出・表示装置1を用いて、動向情報に関する文抽出と強調表示の実験を行った。ここでは、台風に関連する関連記事群を用いて実験した。この実験は、主要表現抽出部11で最上位で抽出された単位表現、時間表現、項目表現を利用して、動向情報対抽出部12、主要動向情報対抽出・表示部13による処理を通じて、文抽出と強調表示を行った。すなわち、動向情報対抽出部12が抽出した動向情報対を含む文を主要動向情報対抽出・表示部13が関連記事DB14中の関連記事群から抽出し、当該抽出した文において、動向情報を強調表示した。
Although the experimental results are omitted here, the main
(3) Sentence Extraction and Highlight Display Using the information extraction / display apparatus 1 of the present invention, experiments on sentence extraction and highlight display regarding trend information were performed. Here, we experimented with related articles related to typhoons. This experiment uses the unit expression, time expression, and item expression extracted at the highest level by the main
例えば、単位表現、時間表現、項目表現は、「号」、「日」、「台風」である。文抽出では、この三つの表現が同時に出現している文を抽出した。そして、その文においてその三つの表現を強調表示する。同一文において複数の表現がある場合は、例えば最初に出現しているものを二重線でそれ以外を一重線で強調表示する。その結果を図9に示す。本発明の実施の形態においては、上記三つの表現を適宜色分けして表示する構成を採ってもよい。図9に示す強調表示の例では、抽出された時間表現と数値表現を抽出した文の前につけている。 For example, the unit expression, time expression, and item expression are “No.”, “Day”, and “Typhoon”. In sentence extraction, sentences in which these three expressions appear simultaneously are extracted. Then, the three expressions are highlighted in the sentence. When there are a plurality of expressions in the same sentence, for example, the first appearing is highlighted with a double line and the others are highlighted with a single line. The result is shown in FIG. In the embodiment of the present invention, a configuration may be adopted in which the above three expressions are displayed with appropriate color coding. In the example of highlighting shown in FIG. 9, the extracted time expression and numerical expression are added in front of the extracted sentence.
抽出した文は、そのときの台風の様子を端的に示しており、要約の研究における重要文抽出と同等の効果を持つ文を抽出できていると思われる。すなわち、台風が通った地名、また場合によって被害状況も記述されており、その台風に関する重要な記述が抽出した文に含まれている。単位表現、時間表現、項目表現の三つのデータが同時に出現している文を取り出すだけでも、重要な文を抽出できることがわかる。 The extracted sentence clearly shows the state of the typhoon at that time, and it seems that the sentence having the same effect as the important sentence extraction in the summary research can be extracted. In other words, the name of the place through which the typhoon passed and the damage situation are also described, and an important description about the typhoon is included in the extracted sentence. It turns out that an important sentence can be extracted only by taking out a sentence in which three data of unit expression, time expression, and item expression appear simultaneously.
また、図中の7個目のデータには、台風7号と台風8号の複数のデータが含まれるが、抽出した情報以外に、現在着目している主要表現があればそれも一重の下線で強調表示することで、その複数データがそのデータにあることがすぐにわかる。また、取り出すべき単位表現、時間表現、項目表現の組をシステムが誤る場合があるが、この強調表示はその誤りを早く見つけることにも役に立つ。ここでは、抽出した文のみで強調表示を行ったが、記事中に抽出すべき文が残っている可能性もある。記事全体で同様の強調表示を行えば、そういう漏れも抽出できる可能性がある。そこで、元の記事全体で強調表示をする構成を採ってもよい。 In addition, the seventh data in the figure includes a plurality of data of typhoon No. 7 and typhoon No. 8. In addition to the extracted information, if there is a main expression currently focused on, it is also a single underline. By highlighting with, you can immediately see that the data is in the data. In addition, the system may mistake the combination of unit expression, time expression, and item expression to be extracted. This highlighting is useful for finding the error early. Here, only the extracted sentence is highlighted, but there is a possibility that the sentence to be extracted remains in the article. If the same highlighting is applied to the entire article, such a leak may be extracted. Thus, a configuration may be adopted in which the entire original article is highlighted.
なお、本発明は、コンピュータにより読み取られ実行されるプログラムとして実施することもできる。本発明を実現するプログラムは、コンピュータが読み取り可能な、可搬媒体メモリ、半導体メモリ、ハードディスクなどの適当な記録媒体に格納することができ、これらの記録媒体に記録して提供され、または、通信インタフェースを介してネットワークを利用した送受信により提供されるものである。 The present invention can also be implemented as a program that is read and executed by a computer. The program for realizing the present invention can be stored in an appropriate recording medium such as a portable medium memory, a semiconductor memory, or a hard disk, which can be read by a computer, provided by being recorded on these recording media, or communication. It is provided by transmission / reception using a network via an interface.
1 情報抽出・表示装置
11 主要表現抽出部
12 動向情報対抽出部
13 主要動向情報対抽出・表示部
14 関連記事DB
111 主要単位表現抽出部
112 主要時間表現抽出部
113 主要項目表現抽出部
121 教師データ記憶手段
122 解−素性対抽出手段
123 機械学習手段
124 学習結果記憶手段
125 表現対抽出手段
126 素性抽出手段
127 解推定手段
128 動向情報対抽出手段
200 単位表現抽出手段
201、301、401 スコア値算出手段
202 主要単位表現抽出手段
300 時間表現抽出手段
302 主要時間表現抽出手段
400 項目表現抽出手段
402 主要項目表現抽出手段
DESCRIPTION OF SYMBOLS 1 Information extraction /
111 Main Unit
Claims (7)
ある分野に関連する記事群から、該記事群全体に高頻度に出現する単位表現を主要単位表現として取り出す単位表現抽出手段と、前記記事群から前記記事群全体に高頻度に出現する時間表現を主要時間表現として取り出す時間表現抽出手段と、前記記事群から前記記事群全体に高頻度に出現する項目表現を主要項目表現として取り出す項目表現抽出手段により、前記主要単位表現、前記主要時間表現、前記主要項目表現を主要表現として抽出する主要表現抽出手段と、
前記主要表現抽出手段によって抽出された主要表現に基づいて、前記記事群から主要単位表現と主要時間表現と主要項目表現とが文書の切れ目をはさまずに同時に出現している場合の、主要単位表現と主要時間表現と主要項目表現の組み合わせを動向情報対として抽出する動向情報対抽出手段と、
前記動向情報対抽出手段によって抽出された動向情報対を表示する表示手段とを備える
ことを特徴とする情報抽出・表示装置。 An information extraction / display device that extracts and displays trend information,
Unit expression extracting means for extracting a unit expression that appears frequently in the entire article group as a main unit expression from an article group related to a certain field , and a time expression that appears frequently in the entire article group from the article group The main unit expression, the main time expression, the time expression extracting means for extracting as the main time expression, and the item expression extracting means for extracting, as the main item expression, the item expression that appears frequently in the entire article group from the article group, Main expression extraction means for extracting main item expressions as main expressions ;
Based on the main expression extracted by the main expression extracting means, the main unit when the main unit expression, the main time expression, and the main item expression appear from the article group at the same time without any breaks in the document. Trend information pair extraction means for extracting a combination of expression, main time expression and main item expression as a trend information pair;
An information extraction / display apparatus comprising: display means for displaying trend information pairs extracted by the trend information pair extraction means .
前記動向情報対抽出手段は、予め与えられた前記動向情報対として抽出すべきものと抽出すべきでないものとを格納した教師データから素性を抽出し、どのような素性のときに動向情報対となりやすいかを学習した学習結果データを学習結果データ記憶手段に記憶する機械学習手段を備え、
請求項1で得た動向情報対から素性を抽出し、学習結果データを利用して、当該素性の場合に動向情報対となりやすいかを推定し、動向情報対となりやすい場合をもとめ、その度合いが大きい動向情報対のみを、動向情報対として抽出する
ことを特徴とする情報抽出・表示装置。 The information extraction / display apparatus according to claim 1 ,
The trend information pair extraction means extracts features from teacher data storing what should be extracted as the trend information pair given in advance and what should not be extracted, and tends to become a trend information pair at any feature Machine learning means for storing the learning result data learned in the learning result data storage means,
The feature is extracted from the trend information pair obtained in claim 1 and the learning result data is used to estimate whether the trend information pair is likely to become a trend information pair. An information extraction / display apparatus characterized by extracting only large trend information pairs as trend information pairs .
前記主要表現抽出手段は、主要表現を複数抽出し、
前記表示手段は、前記動向情報抽出手段が前記抽出された主要表現に基づいて抽出した複数種類の動向情報対から、主要な動向情報対を抽出し、前記抽出した主要な動向情報対を表示する
ことを特徴とする情報抽出・表示装置。 In the information extraction / display device according to claim 1 or 2 ,
The main expression extracting means extracts a plurality of main expressions,
The display means extracts a main trend information pair from a plurality of types of trend information pairs extracted by the trend information extraction means based on the extracted main expression, and displays the extracted main trend information pairs An information extraction / display device characterized by this.
前記動向情報対抽出手段が、さらに、前記主要表現抽出手段によって抽出された主要表現のうち、選択された主要表現に基づいて、前記記事群から動向情報対を抽出する
ことを特徴とする情報抽出・表示装置。 In the information extraction and display device according to any one of claims 1 to 3,
The trend information pair extraction means further extracts a trend information pair from the article group based on a selected main expression among the main expressions extracted by the main expression extraction means. -Display device.
キーワードを入力するキーワード入力手段と、
前記入力されたキーワードに関連する記事群を記憶手段に記憶された書誌データから抽出する記事群抽出手段とを備え、
前記主要表現抽出手段は、前記記事群抽出手段によって抽出された記事群から前記主要表現を抽出する
ことを特徴とする情報抽出・表示装置。 In the information extraction and display device according to any one of claims 1 to 4,
A keyword input means for inputting keywords;
An article group extracting unit that extracts an article group related to the input keyword from bibliographic data stored in a storage unit;
The information extraction / display apparatus, wherein the main expression extraction unit extracts the main expression from the article group extracted by the article group extraction unit.
前記表示手段は、前記動向情報対抽出手段によって抽出された動向情報対の主要時間表現を横軸、主要単位表現の数値を縦軸に利用してグラフ化して表示する
ことを特徴とする情報抽出・表示装置。 In the information extraction and display device according to any one of claims 1 to 5,
The display means displays a graph using the trend information pair extracted by the trend information pair extraction means as a graph using the main time expression on the horizontal axis and the numerical value of the main unit expression on the vertical axis. -Display device.
前記表示手段は、前記動向情報対抽出手段によって抽出された動向情報対を含む文を前記記事群から抽出し、前記抽出された文中において、前記動向情報対を強調表示する
ことを特徴とする情報抽出・表示装置。 In the information extraction and display device according to any one of claims 1 to 6,
The display unit extracts a sentence including the trend information pair extracted by the trend information pair extraction unit from the article group, and highlights the trend information pair in the extracted sentence. Extraction and display device.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006016052A JP4919386B2 (en) | 2006-01-25 | 2006-01-25 | Information extraction / display device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006016052A JP4919386B2 (en) | 2006-01-25 | 2006-01-25 | Information extraction / display device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007199902A JP2007199902A (en) | 2007-08-09 |
JP4919386B2 true JP4919386B2 (en) | 2012-04-18 |
Family
ID=38454482
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006016052A Expired - Fee Related JP4919386B2 (en) | 2006-01-25 | 2006-01-25 | Information extraction / display device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4919386B2 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5366179B2 (en) * | 2008-05-23 | 2013-12-11 | 独立行政法人情報通信研究機構 | Information importance estimation system, method and program |
JP6538762B2 (en) * | 2017-06-27 | 2019-07-03 | 株式会社東芝 | Similarity calculation apparatus and similarity calculation method |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1145251A (en) * | 1997-07-25 | 1999-02-16 | Just Syst Corp | Information analysis support device for using retrieval function and computer readable recording medium for recording program for making computer function as the same device |
JP2001125994A (en) * | 1999-10-29 | 2001-05-11 | Toshiba Medical System Co Ltd | Medical report system |
JP4065936B2 (en) * | 2001-10-09 | 2008-03-26 | 独立行政法人情報通信研究機構 | Language analysis processing system using machine learning method and language omission analysis processing system using machine learning method |
JP3845727B2 (en) * | 2002-09-27 | 2006-11-15 | 独立行政法人情報通信研究機構 | Question answering system using statistical tests |
JP2005228033A (en) * | 2004-02-13 | 2005-08-25 | Fuji Xerox Co Ltd | Document search device and method |
-
2006
- 2006-01-25 JP JP2006016052A patent/JP4919386B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2007199902A (en) | 2007-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Weiss et al. | Fundamentals of predictive text mining | |
US9519634B2 (en) | Systems and methods for determining lexical associations among words in a corpus | |
US9836455B2 (en) | Apparatus, method and computer-accessible medium for explaining classifications of documents | |
Kestemont et al. | Cross-genre authorship verification using unmasking | |
JP5398007B2 (en) | Relationship information expansion device, relationship information expansion method, and program | |
JP5229782B2 (en) | Question answering apparatus, question answering method, and program | |
JP3682529B2 (en) | Summary automatic evaluation processing apparatus, summary automatic evaluation processing program, and summary automatic evaluation processing method | |
JP6535858B2 (en) | Document analyzer, program | |
JP2008287517A (en) | Highlighting device and program | |
US9262400B2 (en) | Non-transitory computer readable medium and information processing apparatus and method for classifying multilingual documents | |
JP4911599B2 (en) | Reputation information extraction device and reputation information extraction method | |
JP4849596B2 (en) | Question answering apparatus, question answering method, and question answering program | |
Chandio et al. | Sentiment analysis of roman Urdu on e-commerce reviews using machine learning | |
Rehman et al. | User-aware multilingual abusive content detection in social media | |
Iqbal et al. | 2024 Presidential Election Sentiment Analysis in News Media Using Support Vector Machine | |
CN114722176A (en) | Intelligent question answering method, device, medium and electronic equipment | |
Mehta et al. | Sentiment analysis on product reviews using Hadoop | |
JP2009237640A (en) | Information extraction device, information extraction method, and information extraction program | |
JP4919386B2 (en) | Information extraction / display device | |
JP5366179B2 (en) | Information importance estimation system, method and program | |
JP5182845B2 (en) | Information extraction apparatus, information extraction method, and information extraction program | |
JP4895645B2 (en) | Information search apparatus and information search program | |
JP2007323238A (en) | Highlighting device and program | |
CN112949287A (en) | Hot word mining method, system, computer device and storage medium | |
Dangol et al. | Automated news classification using n-gram model and key features of nepali language |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090119 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20090428 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20090428 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110311 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110315 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110516 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20110516 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120124 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120127 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4919386 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150210 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |