JP4894037B2 - 情報抽出装置、情報抽出方法及び情報抽出プログラム - Google Patents

情報抽出装置、情報抽出方法及び情報抽出プログラム Download PDF

Info

Publication number
JP4894037B2
JP4894037B2 JP2006191076A JP2006191076A JP4894037B2 JP 4894037 B2 JP4894037 B2 JP 4894037B2 JP 2006191076 A JP2006191076 A JP 2006191076A JP 2006191076 A JP2006191076 A JP 2006191076A JP 4894037 B2 JP4894037 B2 JP 4894037B2
Authority
JP
Japan
Prior art keywords
information
expression
expressions
unit
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006191076A
Other languages
English (en)
Other versions
JP2008021052A (ja
Inventor
真樹 村田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Information and Communications Technology
Original Assignee
National Institute of Information and Communications Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Information and Communications Technology filed Critical National Institute of Information and Communications Technology
Priority to JP2006191076A priority Critical patent/JP4894037B2/ja
Publication of JP2008021052A publication Critical patent/JP2008021052A/ja
Application granted granted Critical
Publication of JP4894037B2 publication Critical patent/JP4894037B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報抽出技術に関し、特に、記事群から数値情報の複数の対を抽出する情報抽出装置、情報抽出方法及び情報抽出プログラムに関する。
従来の情報抽出技術として、例えば、下記の非特許文献1は、文間関係を利用して、文間関係が推移か更新かを判断し、その情報を利用して動向情報を抽出する技術に関して記載している。
難波,国政,福島,相沢,奥村:"文書横断文間関係を考慮した動向情報の抽出と可視化",情報処理学会自然言語処理研究会,2005-NL-168 , pp.67−74 (2005).
しかし、上記従来技術は、ある分野に関連する記事群に含まれる複数の数値情報の対を自動的に抽出することは行っていない。また、従来技術は、抽出した上記数値情報の対をグラフ表示することは行っていない。従って、従来技術によっては、ある分野に関連する記事群に含まれる複数の数値情報の対を一目で把握できるように表示することはできず、ユーザが、記事群の情報を素早く理解することは困難である。
本発明は、上記従来技術の問題点を解決し、ある分野に関連する記事群から自動で複数の情報の対(例えば、複数の数値情報の対)を抽出する情報抽出装置、情報抽出方法及び情報抽出プログラムの提供を目的とする。
本発明の情報抽出装置は、ある分野に関連する記事群から、前記記事群における主要表現を抽出する主要表現抽出手段と、前記主要表現抽出手段によって抽出された主要表現に基づいて、前記記事群を構成する記事から複数の情報の対を情報対として抽出する情報対抽出手段とを備える。
好ましくは、本発明の情報抽出装置において、前記主要表現抽出手段が、前記記事群から1又は複数の項目表現と1又は複数の単位表現とを主要表現として抽出し、前記情報対抽出手段が、前記主要表現に基づいて、前記記事群を構成する記事から1又は複数の項目表現と1又は複数の数値情報との対を情報対として抽出する。
また、好ましくは、本発明の情報抽出装置において、前記主要表現抽出手段が、更に、分野を選択入力し、選択入力した分野に関連する記事群を抽出する。
また、好ましくは、本発明の情報抽出装置において、前記情報対抽出手段が、更に、前記主要表現抽出手段によって抽出された主要表現のうち、特定の主要表現を選択し、前記選択された特定の主要表現に基づいて、前記記事群を構成する記事から情報対を抽出する。
また、好ましくは、本発明の情報抽出装置において、前記情報対抽出手段が、前記主要表現抽出手段によって抽出された主要表現を同時に含む記事を前記記事群から抽出し、抽出された記事に出現している名詞連続を新たな主要表現として選択し、前記主要表現抽出手段によって抽出された主要表現と前記選択された主要表現とに基づいて、前記記事群を構成する記事から前記情報対を抽出する。
また、好ましくは、本発明の情報抽出装置が、更に、前記情報対抽出手段によって抽出された情報対を表示する表示手段を備える。
また、好ましくは、本発明の情報抽出装置において、前記表示手段が、前記情報対抽出手段によって抽出される情報対の中から、所定の評価値算出式に基づいて算出される評価値に基づいて情報対を選択し、前記選択された情報対を表示する。
また、好ましくは、本発明の情報抽出装置において、前記表示手段が、前記情報対抽出手段によって抽出された情報対をグラフ化して表示する。
また、好ましくは、本発明の情報抽出装置において、前記表示手段が、前記情報対抽出手段によって抽出された情報対をバブルチャート又は顔グラフの形式で表示する。
また、好ましくは、本発明の情報抽出装置において、前記情報対抽出手段が、更に、前記情報対が抽出された前記記事群を構成する各記事を前記各記事が属するクラスターにクラスタリングし、前記表示手段が、クラスターを選択し、選択されたクラスターに属する記事から前記情報対抽出手段によって抽出された情報対をグラフ化して表示する。
また、好ましくは、本発明の情報抽出装置において、前記情報対抽出手段が、更に、前記抽出された情報対を前記情報対が属するクラスターにクラスタリングし、前記表示手段が、前記クラスタリングされた情報対を前記情報対が属するクラスター毎にグラフ化して表示する。
また、好ましくは、本発明の情報抽出装置において、前記表示手段が、前記情報対抽出手段によって抽出された情報対について相関分析を行い、前記相関分析の結果に基づいて、前記情報対をグラフ化して表示する。
また、好ましくは、本発明の情報抽出装置において、前記表示手段が、前記情報対が抽出された前記記事群を構成する各記事から前記情報対に対応する記述表現を抽出し、前記抽出した記述表現を前記情報対についてのグラフ上に表示する。
また、本発明の情報抽出装置は、キーワードを入力し、前記入力したキーワードを含む記事群を抽出し、前記抽出された記事群における主要表現を抽出する主要表現抽出手段と、前記主要表現抽出手段によって抽出された主要表現に基づいて、前記記事群を構成する記事から複数の情報の対を情報対として抽出する情報対抽出手段とを備える。
また、本発明の情報抽出装置は、項目表現を入力し、前記入力された項目表現と共起して出現する単位表現を、ある分野に関連する記事群から抽出し、前記入力された項目表現と前記抽出された単位表現とを主要表現とする主要表現抽出手段と、前記主要表現に基づいて、前記記事群を構成する記事から前記単位表現に関連する数値表現と前記項目表現との対を情報対として抽出する情報対抽出手段と、前記情報対抽出手段によって抽出された情報対を表示する表示手段とを備える。
また、本発明の情報抽出装置は、単位表現を入力し、前記入力された単位表現と共起して出現する項目表現を、ある分野に関連する記事群から抽出し、前記入力された単位表現と前記抽出された項目表現とを主要表現とする主要表現抽出手段と、前記主要表現に基づいて、前記記事群を構成する記事から前記単位表現に関連する数値表現と前記項目表現との対を情報対として抽出する情報対抽出手段と、前記情報対抽出手段によって抽出された情報対を表示する表示手段とを備える。
また、本発明の情報抽出方法は、ある分野に関連する記事群から、前記記事群における主要表現を抽出し、前記抽出された主要表現に基づいて、前記記事群を構成する記事から複数の情報の対を情報対として抽出する。
また、本発明の情報抽出プログラムは、コンピュータに、ある分野に関連する記事群から、前記記事群における主要表現を抽出する処理と、前記抽出された主要表現に基づいて、前記記事群を構成する記事から複数の情報の対を情報対として抽出する処理とを実行させる。
本発明の情報抽出装置、情報抽出方法および情報抽出プログラムによれば、例えば、ある分野に関連する記事群に含まれる複数の数値情報の対を抽出することができる。また、抽出した数値情報の対を一目で把握できるように表示することができる。その結果、ユーザが、記事群の情報を素早く理解することが可能となる。
以下に、図を用いて、本発明の実施の形態について説明する。図1は、本発明のシステム構成の一例を示す図である。情報抽出装置1は、ある分野に関連する記事群から、複数の情報の対を情報対として抽出する処理装置である。情報抽出装置1は、例えば、後述する関連記事データベース(DB)14に格納された記事群から、1又は複数の項目表現と1又は複数の数値情報との対(例えば、1つの項目表現と2つの数値情報との対)を情報対として抽出する。
情報抽出装置1は、主要表現抽出部11、情報対抽出部12、表示部13、関連記事データベース(DB)14を備える。主要表現抽出部11は、後述する関連記事DB14に格納された、ある分野に関連する記事群から、主要表現を抽出する。主要表現抽出部11は、例えば、1又は複数の項目表現と1又は複数の単位表現を主要表現として抽出する。例えば、単位表現と項目表現とが主要表現として抽出される。本発明の一実施例によれば、主要表現抽出部11が、単位表現と時間表現と項目表現とを主要表現として抽出するようにしてもよい。主要表現は、後述する情報対抽出部12において情報対を抽出する際に用いられる。主要表現を抽出する際には、例えば、対象の記事群全体に万遍なく高頻度に出現する該当表現を抽出する。
主要表現抽出部11は、主要単位表現抽出部111と主要項目表現抽出部112とを備える。本発明の一実施例によれば、主要表現抽出部11が、時間表現を抽出する時間表現抽出部(図1では図示を省略)を備えるようにしてもよい。本発明の一実施形態によれば、主要表現抽出部11が、更に、ユーザの指定入力に従って、分野を選択入力し、選択入力した分野に関連する記事群を予め記憶手段(図示を省略)内に格納された書誌データから抽出するようにしてもよい。
主要単位表現抽出部111は、情報対を抽出、整理する際に必要となる単位表現を抽出する。例えば、映画に関する記事群から、興行収入の「5億円」などの「円」や,観客動員数の「30万人」などの「人」を単位表現として抽出する。
主要項目表現抽出部112は、情報対を抽出、整理する際に必要となる項目表現を抽出する。例えば、映画に関する記事群から、「興行収入」や「観客動員数」などを項目表現として抽出する。
情報対抽出部12は、主要表現抽出部11によって抽出された主要表現に基づいて、上記記事群を構成する記事から複数の情報の対(例えば、1又は複数の項目表現と1又は複数の数値情報との対)を情報対として抽出する。情報対抽出部12は、例えば、関連記事DB14に格納された記事群において、主要表現抽出部11によって抽出された主要表現が同時に出現している箇所を特定し、その箇所に記載されている数値情報の対(数値情報対)を抽出し、抽出した数値情報の対と上記主要表現のうちの項目表現との対を情報対とする。上記主要表現のうちの単位表現については、情報対抽出部12は、当該単位表現に関連する数値(例えば、単位表現に隣接して記事中に出現している数値)も同時に抽出し、数値と単位表現とをあわせて数値表現として抽出する。例えば、映画の記事の場合、「項目表現:興行収入」「数値表現:5億円」「数値表現:30万人」の情報対を数値情報対として抽出する。
表示部13は、情報対抽出部12によって抽出された数値情報対を整理して表示(例えばグラフ化して表示)する。例えば、映画の記事の場合、情報対抽出部12が抽出した、「興行収入」、「観客動員数」に関する数値情報対を、横軸に「観客動員数」をとり、縦軸に「興行収入」をとってグラフ化して表示する。
表示部13は、主要表現抽出部11が抽出した主要表現が複数の場合に、情報対抽出部12が各主要表現に基づいて抽出した複数種類の情報対から、各主要表現について所定の評価値算出式に基づいて算出される評価値に基づいて主要な情報対を選択した上で、選択した主要な情報対をグラフ化する構成を採ってもよい。また、本発明の一実施形態によれば、情報対抽出部12が、ユーザの指定入力に従って、上記複数種類の情報対から主要な情報対を選択するようにしてもよい。また、表示部13は、表示する円の大きさが数値表現の数値の大きさを示すバブルチャートの形式で画面表示するようにしてもよい。
関連記事DB14には、ある分野に関連する記事群が蓄積されている。
本発明の一実施形態によれば、情報対抽出部12が、更に、主要表現抽出部11によって抽出された主要表現のうち、ユーザの指定入力に従って、特定の主要表現を選択し、選択された特定の主要表現に基づいて、上記記事群を構成する記事から情報対を抽出するようにしてもよい。
以下に、本発明の実施の形態に係る情報抽出装置1の各構成要素の詳細な例について説明する。
(主要表現抽出部11)
主要表現抽出部11は、情報対を抽出、整理する際に必要となる主要表現を抽出する。主要表現としては、例えば、以下のものを抽出する。
単位表現、単位表現、項目表現
各表現の抽出には、例えば、ChaSen(下記の参照文献(1)参照)を利用する。
参考文献(1): Y. Matsumoto, A. Kitauchi, T. Yamashita,Y. Hirano, H. Matsuda and M. Asahara: Japanese morphological analysis system ChaSen version 2.0 manual 2nd edition ”(1999).
ChaSenの出力において、品詞の情報を利用して、各表現の抽出を行う。単位表現は、数値の前方または後方に接続する名詞連続を取り出す。項目表現は、例えば名詞連続を取り出す。また、例えば、単位表現として得られた表現のうち、時間に関する表現(例:「年」、「月」、「日」)を含む表現を取り除くようにしてもよい。
なお、本発明の一実施形態によれば、主要表現抽出部11が、単位表現、単位表現、時間表現、項目表現を主要表現として抽出するようにしてもよいし、単位表現、時間表現、項目表現、項目表現を主要表現として抽出するようにしてもよい。主要表現抽出部11は、例えば、単位表現として得られた表現のうち、時間に関する表現(例:「年」「月」「日」「時」「秒」)を含む表現を時間表現とする。
また、本発明の一実施形態によれば、主要表現抽出部11が、抽出された主要表現からユーザの指定入力に従って特定の主要表現を選択するようにしてもよい。
上述したChaSenを用いた手法の他に、単位表現、項目表現を固有表現として扱い、主要表現抽出部11が、以下に述べる固有表現抽出技術を用いて主要表現を抽出する手法を採ることもできる。
固有表現とは、人名、地名、組織名などの固有名詞、金額などの数値表現といった、特定の事物・数量を意味する言語表現のことで、固有表現抽出とは、そういった固有表現を文章中から計算機で自動で抽出する技術である。例えば、「日本の首相は小泉純一郎である」という文に対して固有表現抽出を行なうと、固有表現の「日本」と「小泉純一郎」が地名、人名として、抽出される。
以下に、固有表現抽出の一般的な手法の例について説明する。
(1)機械学習を用いる手法
機械学習を用いて固有表現を抽出する手法がある(例えば、以下の参考文献(2)参照)。
参考文献(2):浅原正幸,松本裕治,日本語固有表現抽出における冗長的な形態素解析の利用情報処理学会自然言語処理研究会 NL153-7 2002
まず、例えば、「日本の首相は小泉さんです。」という文を、各文字に分割し、分割した文字について、以下のように、 B−LOCATION、 I−LOCATION等の正解タグを付与することによって、正解を設定する。以下の一列目は、分割された各文字であり、各文字の正解タグは二列目である。
日 B−LOCATION
本 I−LOCATION
の O
首 O
相 O
は O
小 B−PERSON
泉 I−PERSON
さ O
ん O
で O
す O
。 O
上記において、B −???は、ハイフン以下の固有表現の種類の始まりを意味するタグである。例えば、 B−LOCATIONは、地名という固有表現の始まりを意味しており、 B−PERSONは、人名という固有表現の始まりを意味している。また、I −???は、ハイフン以下の固有表現の種類の始まり以外を意味するタグであり、O はこれら以外である。従って、例えば、文字「日」は、地名という固有表現の始まりに該当する文字であり、文字「本」までが地名という固有表現である。
このように、各文字の正解を設定しておき、このようなデータから学習し、新しいデータでこの正解を推定し、この正解のタグから、各固有表現の始まりと、どこまでがその固有表現かを認識して、固有表現を推定する。
この各文字に設定された正解のデータから学習するときには、システムによってさまざまな情報を素性という形で利用する。例えば、
日 B−LOCATION
の部分は、
日本−B 名詞−B
などの情報を用いる。日本−B は、日本という単語の先頭を意味し、名詞−B は、名詞の先頭を意味する。単語や品詞の認定には、例えば前述したChaSenによる形態素解析を用いる。ChaSenを用いれば、入力された日本語を単語に分割することができる。例えば、ChaSenは、前述したように、日本語文を分割し、さらに、各単語の品詞も推定してくれる。例えば、「学校へ行く」を入力すると以下の結果を得ることができる。
学校 ガッコウ 学校 名詞−一般
へ ヘ へ 助詞−格助詞−一般
行く イク 行く 動詞−自立 五段・カ行促音便 基本形
EOS
このように各行に一個の単語が入るように分割され、各単語に読みや品詞の情報が付与される。
なお、例えば、上記の参考文献(2)では、素性として、入力文を構成する文字の、文字自体(例えば、「小」という文字)、字種(例えば、ひらがなやカタカナ等)、品詞情報、タグ情報(例えば、「 B−PERSON」等)を利用している。
これら素性を利用して学習する。タグを推定する文字やその周辺の文字にどういう素性が出現するかを調べ、どういう素性が出現しているときにどういうタグになりやすいかを学習し、その学習結果を利用して新しいデータでのタグの推定を行なう。機械学習には、例えばサポートベクトルマシンを用いる。
固有表現抽出には、上記の手法の他にも種々の手法がある。例えば、最大エントロピーモデルと書き換え規則を用いて固有表現を抽出する手法がある(参考文献(3)参照)。
参考文献(3):内元清貴,馬青,村田真樹,小作浩美,内山将夫,井佐原均,最大エントロピーモデルと書き換え規則に基づく固有表現抽出,言語処理学会誌, Vol.7, No.2, 2000
また、例えば、以下の参考文献(4)に、サポートベクトルマシンを用いて日本語固有表現抽出を行う手法について記載されている。
参考文献(4):山田寛康,工藤拓,松本裕治,Support Vector Machineを用いた日本語固有表現抽出,情報処理学会論文誌, Vol.43, No.1", 2002
(2)作成したルールを用いる手法
人手でルールを作って固有表現を取り出すという方法もある。
例えば、
名詞+「さん」だと人名とする
名詞+「首相」だと人名とする
名詞+「町」だと地名とする
名詞+「市」だと地名とする
などである。
上記の固有表現抽出技術は、人名や地名を抽出する場合を例にとって説明したが、本発明の実施の形態において、例えば、単位表現、項目表現をそれぞれ固有表現として扱い、上記の固有表現抽出技術を用いて単位表現、項目表現を抽出する構成を採ってもよい。
主要表現抽出部11は、今扱っている分野の記事群で主たる役割を果たす主要な単位表現、項目表現を主要表現として抽出する。例えば、対象の記事群全体に万遍なく高頻度に出現する該当表現を主要表現として抽出する。
具体的には、主要表現の抽出には、以下の式(1)〜式(3)に示すようなScore(スコア)の値を用い、スコアの値が大きいものを主要表現として抽出する。
(1)OkapiのTF項の式
Figure 0004894037
(2)総頻度
Figure 0004894037
(3)総出現記事数
Figure 0004894037
ただし、iは記事の番号、Docsは記事の番号の集合、TFi は記事iでの表現の出現回数、li は記事iの長さ、Δは記事群Docsにおける記事の平均の長さを意味する。OkapiのTF項の式は、複数の記事に万遍なく出現しなおかつ頻度が大きい表現のスコアを大きくする効果がある。なお、記事の長さとは、例えば、記事に含まれる単語数や文字数である。
項目表現については、長い文字列を優先して取ってくることができるように、TFi を記事iでの表現の出現回数とせずに、記事iでの表現の出現回数とその表現の文字列長の積とする方法も利用した。
また、本発明の実施の形態においては、式(1)の値にIDFすなわちlogN/DFを乗じた値、式(2)の値に上記IDFを乗じた値、式(3)の値に上記IDFを乗じた値を各スコアの値としてもよい。ここで、Nは図示しない大規模コーパス中の全記事数、DFは、例えば、当該大規模コーパス中において当該表現が出現した記事数を意味する。
本発明の実施の形態においては、主要表現抽出部11は、例えば、算出されたスコア値が最も高い表現を主要表現として抽出する。主要表現抽出部11は、例えば、算出されたスコア値が所定の閾値以上の表現を主要表現として抽出してもよい。また、主要表現抽出部11は、例えば、算出されたスコア値が高いものから所定の個数の表現を主要表現として抽出してもよい。
(情報対抽出部12)
情報対抽出部12は、関連記事DB14に格納された記事群において、主要表現抽出部11によって抽出された表現が例えば同時に出現している箇所を特定し、その箇所に記載されている数値情報の対(数値情報対)を抽出し、抽出した数値情報の対と項目表現との対を情報対とする。主要表現を構成する単位表現については、前述したように、当該単位表現に関連する数値(例えば、単位表現に隣接して記事中に出現している数値)も同時に抽出し、数値と単位表現とをあわせて数値表現として抽出する。本発明の実施の形態においては、例えば、句点、改行、文書の切れ目を示す特殊記号を切れ目とし、これらをはさまずに同時に単位表現と項目表現(例えば、2つの単位表現と1つの項目表現)が出現した箇所を、同時に出現した箇所とする。また、例えば、一記事につき、抽出する情報対は一つとし、記事中で最も最初に現れた情報対のみを抽出する。
例えば、主要表現抽出部11が、単位表現、単位表現、項目表現を主要表現として抽出する例では、情報対抽出部12は、数値情報、数値情報、項目表現を情報対として抽出する。また、例えば、主要表現抽出部11が、単位表現、単位表現、時間表現、項目表現を主要表現として抽出する例では、情報対抽出部12は、数値情報、数値情報、時間情報、項目表現を情報対として抽出する。時間情報とは、時間表現(例えば、「年」、「月」、「日」、「時」等)と、当該時間表現に関連する数値(例えば、時間表現に隣接して記事中に出現している数値)とを合わせた情報(例えば、2月等)である。
(表示部13)
表示部13は、情報対抽出部12によって抽出された情報対を整理して、例えばグラフ化して表示する。表示部13は、例えば数値情報対の一方を横軸に、もう一方を縦軸にしたグラフを作成する。
本発明の一実施形態によれば、例えば、主要表現抽出部11において抽出された複数の主要表現(例えば、2つの単位表現と1つの項目表現)に基づいて情報対抽出部12が抽出した複数種類の情報対から、表示部13が、各主要表現(例えば、2つの単位表現と1つの項目表現)についての所定の評価値に基づいて、主要な情報対を選択(例えば、評価値が最も大きい情報対を選択)した上で、選択した主要な情報対をグラフ化する構成を採ってもよい。
上記評価値の算出方法としては、例えば、以下の評価値の4種類の算出式のうちのいずれか1つを用いる。ここでは、主要表現抽出部11によって抽出された主要表現が、2つの単位表現(第1の単位表現と第2の単位表現)と1つの項目表現である場合を例に採って説明する。
(方法1):数値情報対の頻度と主要表現のスコアを用いる。
評価値M=Freq×S1×S2×S3
(方法2):数値情報対の頻度と主要表現のスコアを用いる。
評価値M=Freq×(S1×S2×S3)
(方法3):数値情報対の頻度を用いる。
評価値M=Freq
(方法4):主要表現のスコアを用いる。
評価値M=S1×S2×S3
ここで、Freqは、当該主要表現に基づいて情報対抽出部12によって抽出された数値情報対の数、S1、S2、S3は、それぞれ、第1の単位表現についての前述したスコアの値、第2の単位表現についての前述したスコアの値、項目表現についての前述したスコアの値である。
本発明の一実施形態によれば、例えば、主要表現抽出部11が、単位表現、項目表現については、それぞれ、前述したスコアの値が高いものから5つずつ選択する。そして、表示部13が、上記選択された単位表現、項目表現の中から単位表現を2つ、項目表現を1つ選択し、その全ての組み合わせ50個(=5×4×5/2)に対して上記の評価値Mの計算をして得られる評価値Mが大きいものほど有用なグラフと判断し、情報対抽出部12によって抽出された情報対のうち、例えば、評価値Mが最も大きい2つの単位表現と項目表現とに基づいて抽出された情報対をグラフ表示する。
本発明の一実施形態によれば、情報対抽出部12が数値情報、数値情報、時間情報、項目表現を情報対として抽出し、表示部13が、時間情報を横軸に採り、数値情報を縦軸に採って、当該数値情報の各々をプロットしてグラフ(例えば2つの折れ線が表示された折れ線グラフ)表示するようにしてもよい。また、本発明の一実施形態によれば、縦軸、横軸ともに数値情報とし、時間情報については、グラフ中のプロットとして用いるマーカーの形、色を変えて表現するようにしてもよい。また、当該時間情報を上記プロットの近くにラベル形式で表示するようにしてもよい。
本発明の一実施形態によれば、表示部13が、例えば、情報対が抽出された記事群を構成する各記事から当該情報対に対応する記述表現を抽出し、当該抽出した記述表現を当該情報対についてのグラフ上に表示するようにしてもよい。例えば、表示部13は、情報対が抽出された各記事の先頭の文などから公知の技術を用いて鍵括弧内の表現を抽出することにより、グラフ中の各プロットに対するラベルに相当する記述表現(例えば、後述する図4中の「タイタニック」等)を抽出し、抽出した記述表現を対応する各プロットの近くに表示するようにしてもよい。また、本発明の一実施形態によれば、表示部13が、例えば、各記事の先頭の文などから、前述した固有表現抽出技術を用いて、人名や地名等を抽出し、抽出した人名や地名等を上記各プロットに対するラベルに相当する記述表現として対応する各プロットの近くに表示するようにしてもよい。また、表示部13は、例えば、記事群中の文の鍵括弧内の表現の数、上述した固有表現抽出技術を用いて抽出された人名や地名等の数のうち、最も数が大きい表現を、上記各プロットに対するラベルに相当する記述表現として対応する各プロットの近くに表示するようにしてもよい。
また、本発明の一実施形態によれば、情報対抽出部12が、情報対が抽出された記事群を構成する各記事を各記事が属するクラスターにクラスタリングするようにしてもよい。そして、表示部13が、ユーザの指定入力に従ってクラスターを選択し、選択されたクラスターに属する記事から情報対抽出部12によって抽出された情報対をグラフ化して表示するようにしてもよい。
以下に、クラスタリングの方法の例について説明する。
(階層クラスタリングによる方法)
クラスターの成員のうち、距離が最も近い成員同士を結合していき、クラスターを作る。そして、距離が最も近いクラスター同士を結合する。クラスター間の距離の定義は様々ある。例えば、クラスターAとクラスターBとの距離を、クラスターAの成員(すなわち、クラスターAに属する単語)とクラスターBの成員(すなわち、クラスターBに属する単語)との距離の中で最も小さいものとしてもよい。ここで、ある成員と他の成員との距離とは、ある成員の位置ベクトルと他の成員の位置ベクトルとの間の距離である。位置ベクトルとは、ベクトル空間上における成員の位置を示すベクトルである。また、例えば、クラスターAとクラスターBとの距離を、クラスターAの成員とクラスターBの成員との距離の中で最も大きいものとしてもよい。また、例えば、クラスターAとクラスターBとの距離を、全てのクラスターAの成員とクラスターBの成員との距離の平均としてもよい。また、全てのクラスターAの成員の位置の平均をクラスターAの位置とし、全てのクラスターBの成員の位置の平均をクラスターBの位置とし、当該クラスターAの位置とクラスターBの位置との距離をクラスターAとクラスターBとの距離としてもよい。
(ウォード法による方法)
以下に示すWを定義する。
W = ΣΣ(x(i,j)−ave_x(i))^2
^は指数を意味する。例えば、上記の式における1つ目のΣは、i=1からi=gまでの加算、2つ目のΣは、j=1からj=niまでの加算を意味する。また、x(i,j)は、i番目のクラスターのj番目の成員の位置、ave_x(i)は、i番目のクラスターの全ての成員の位置の平均を意味する。クラスター同士を結合していくと、Wの値が増加するが、ウォード法では、Wの値がなるべく大きくならないようにクラスター同士を結合していく。
(クラスタリングの終了条件)
予めクラスターの個数を決めておいて、クラスターの個数が当該予め決められた数になったときに、クラスター同士を結合するのをやめるようにしてもよい。また、予め距離の閾値を決めておいて、その閾値以上離れているクラスター同士を結合するのをやめるようにしてもよい。
(各成員の位置)
各成員(単語)の位置は、各成員に関する種々の情報(例えば、各成員の属性情報)を用いて求める。各成員の属性情報としては、例えば、各成員(単語)に含まれる文字の種類(例えば、ひらがな、カタカナ、漢字、それ以外が、それぞれあるかないか) 、単語の長さ、単語の語義等を用いる。
本発明の一実施形態によれば、情報対抽出部12が、例えば、情報対を抽出するのに利用した記事の文、その記事全文、又は当該記事のタイトルや記事の先頭文から、公知のキーワード抽出技術を用いて単語を抽出する。そして、各単語(成員)の位置をベクトル(位置ベクトル)で表現する。成員の位置を示す位置ベクトルの要素の値は、例えば、各単語の出現頻度や、当該単語のOkapiの式(例えば上述した式(1)で示される値)、当該単語のtfidf(前述した式(1)の値にlogN/DFを乗じた値)等としてもよい。なお、例えば、位置ベクトルの次元を単位表現や時間表現の個数分増やして、当該記事において単位表現、時間表現に隣接して記事中に出現している数値を成員の位置ベクトルの要素の値としてもよい。
本発明の一実施形態によれば、情報対抽出部12が、例えば、情報対を抽出した記事A〜記事D中の単語(成員)の位置を位置ベクトルで表現する。そして、情報対抽出部12が、記事間の距離を、それぞれの記事の成員同士の距離の中で最も小さいものとして、距離が最も近い記事同士を結合して、クラスターを作ってもよい。
次にトップダウンのクラスタリング(非階層クラスタリング)の方法を説明する。
(最大距離アルゴリズムによるクラスタリング)
ある成員と、当該成員と距離が最も離れた成員を求め、これらの成員をそれぞれのクラスターの中心とする。次に、それぞれのクラスターの中心と各成員との距離の最小値を各成員の距離とし、その距離が最も大きい成員を新たなクラスターの中心とする。当該クラスターの中心を求める処理を繰り返す。例えば、予め定めた数のクラスターになったときに、当該クラスターの中心を求める処理の繰り返しをやめる。また、例えば、クラスター間の距離が予め定めた数以下になったときに、当該クラスターの中心を求める処理の繰り返しをやめる。
また、クラスターの良さを例えばAIC情報量基準などで評価して、評価によって求まった値と予め定めた閾値との比較結果に基づいて、当該クラスターの中心を求める処理の繰り返しをやめるようにしてもよい。上記の最大距離アルゴリズムによるクラスタリングによれば、各成員は、各成員と最も近いクラスター中心を持つクラスターの成員となる。
(k平均法)
例えば、以下に示すk平均法によって、予め定めた個数(k個)にクラスタリングする。まず、k個の成員をランダムに選択し、選択されたk個の成員をクラスターの中心とする。そして、各成員を、当該各成員に最も近いクラスター中心を持つクラスターの成員とする。
次に、クラスター内の各成員の平均の位置に最も近い成員を、それぞれのクラスターの中心とする。そして、各成員を、当該各成員に最も近いクラスター中心を持つクラスターの成員とする。また、クラスター内の各成員の平均の位置に最も近い成員をそれぞれのクラスターの中心とする。上記のクラスターの中心を求める処理を繰り返し、クラスターの中心が移動しなくったときに、クラスターの中心を求める処理の繰り返しをやめる。本発明の一実施形態によれば、予め定めた回数だけクラスターの中心を求める処理を繰り返してやめるようにしてもよい。そして、最終的なクラスター中心を持つクラスターを決定する。そして、各成員を、当該各成員が最も近いクラスター中心を持つクラスターの成員とする。上記の手法によって、成員のクラスタリングをする。本発明において用いるクラスタリングの方法は、上述した方法に限定されるものではない。本発明に係る情報抽出装置1は、上述したクラスタリングの方法以外の様々な方法を用いて、クラスタリングをするようにしてもよい。例えば、予め情報抽出装置1内の記憶手段(図示を省略)内に、単語と単語が属するクラスター(例えば、当該単語を含む記事の文)との対応情報を予め記憶させておき、情報対抽出部12が、特定の単語を選択し、当該記憶手段内の、当該選択された単語と当該選択された単語が属するクラスター(例えば、当該単語を含む記事の文)との対応情報に基づいて、例えば当該単語を含む記事の文を特定し、特定された記事の文から抽出された情報対を表示部13にグラフ表示させるようにしてもよい。
本発明の一実施形態によれば、情報対抽出部12が、ユーザの指定入力に従って、特定の単語を選択し、選択された単語を含む記事の文、当該記事の全文、又は、当該記事のタイトルや記事の先頭文をその単語のクラスターとして、当該クラスターから抽出された情報対のみを表示部13にグラフ表示させてもよい。また、情報対抽出部12が、ユーザの指定入力に従って、複数の単語を選択し、選択された単語を含む記事の文、当該記事の全文、又は、当該記事のタイトルや記事の先頭文を各単語のクラスターとして、各クラスターから抽出された情報対をクラスター毎にグラフ表示(例えば、色分けしてグラフ表示)させてもよい。例えば、記事群中にビール、ジュース、ワインのデータが混在している場合に、情報抽出装置1が、ユーザの指定入力に従って、ビール、ジュース、ワインといった3つの単語を入力することにより、表示部13は、ビールのクラスター、ジュースのクラスター、ワインのクラスターのそれぞれから抽出された情報対を色分けしてグラフ表示する。
また、本発明の一実施形態によれば、情報対抽出部12が、抽出された情報対を、前述したクラスタリングの方法を用いて、当該情報対が属するクラスターにクラスタリングし、表示部13が、上記クラスタリングされた情報対を当該情報対が属するクラスター毎にグラフ化して表示するようにしてもよい。例えば、情報対抽出部12は、情報対中の単語(成員)の位置ベクトルを、当該単語の属性情報に基づいて求め、求めた各単語の位置ベクトルに基づいて、各情報対同士の距離を求め、距離が最も近い記事同士を結合して、情報対のクラスターを作るようにしてもよい。
本発明の一実施形態によれば、主要表現抽出部11が、ユーザの指定入力に従ってキーワードを入力し、公知の言語変換技術を用いて、入力したキーワードを当該キーワード入力時の言語(日本語)とは異なる言語(例えば英語)に変換し、当該言語変換後のキーワードを含む記事群を予め記憶手段(図1では図示を省略)に記憶された書誌データから抽出し、抽出された記事群に基づいて主要表現を抽出するようにしてもよい。また、主要表現抽出部11が、例えば抽出された英語の記事群を日本語に言語変換した上で主要表現を抽出するようにしてもよい。
また、本発明の一実施形態によれば、主要表現抽出部11が、ユーザの指定入力に従って、項目表現を入力し、入力された項目表現と共起して出現する単位表現を関連記事DB14中の記事群または予め記憶手段に記憶された書誌データから抽出し、上記項目表現と抽出した単位表現を主要表現とするようにしてもよい。そして、情報対抽出部12が、上記主要表現に基づいて、当該記事群を構成する記事から上記単位表現に関連する数値表現と当該項目表現との対を情報対として抽出し、表示部13が、上記主要表現に基づいて抽出された情報対をグラフ表示する際に、項目表現を、当該項目表現と偏って共起して出現する単位表現と対応付けてグラフ表示するようにしてもよい。
また、本発明の一実施形態によれば、主要表現抽出部11が、ユーザの指定入力に従って、単位表現を入力し、入力された単位表現と共起して出現する項目表現を関連記事DB14中の記事群または予め記憶手段に記憶された書誌データから抽出し、上記単位表現と抽出した項目表現を主要表現とするようにしてもよい。そして、情報対抽出部12が、上記主要表現に基づいて、当該記事群を構成する記事から上記単位表現に関連する数値表現と当該項目表現との対を情報対として抽出し、表示部13が、上記主要表現に基づいて抽出された情報対をグラフ表示する際に、上記抽出された項目表現を、当該項目表現と偏って共起して出現する単位表現と対応付けてグラフ表示するようにしてもよい。
ここで、一般に、表現Bと偏って共起して出現する単語Aの抽出方法(共起語抽出方法)について説明する。当該共起語抽出方法を用いれば、例えば、項目表現「観客動員数」から単位表現「人」を求めることができる。また、逆に、単位表現「人」から項目表現「観客動員数」などを求めることができる。
例えば、項目表現「観客動員数」から単位表現「人」を求める場合は、単位表現の候補を取り出し,それぞれをAとして以下の計算をする。単位表現「人」から項目表現「観客動員数」などを求める場合は、項目表現の候補を取り出し、それぞれをAとして以下の計算をする。
C中のAの出現率、B中のAの出現率を求める。ここで、
C中のAの出現率=C中のAの出現回数/C中の単語総数
B中のAの出現率=B中のAの出現回数/B中の単語総数
である。そして、B中のAの出現率/C中のAの出現率を求めて、この値が大きいものほど、単語Aを、表現Bに偏って共起して出現する単語とする。
B中のAの出現率とは、BとAが共起している場合のAの出現率という意味であり、C中のAの出現率とは、予め記憶手段に記憶された書誌データにおけるAの出現率または出現回数という意味である。
本発明の他の実施形態によれば、B中のAの出現率とは、関連記事DB14中の記事群における、BとAが共起している場合のAの出現率という意味であり、C中のAの出現率とは、関連記事DB14中の記事群におけるAの出現率または出現回数という意味としてもよい。
表現Bと偏って共起して出現する単語Aの抽出方法として、以下のように、有意差検定を利用する方法を用いてもよい。
(二項検定の場合)
AのCでの出現数をN、AのBでの出現数をN1、N2=N−N1とする。AがCに現れたときに、それがB中に現れる確率を0.5と仮定して、Nの総出現のうち、N2回以下、AがCに出現してBに出現しなかった確率を求める。
この確率は、P1=ΣC(N1+N2,x)*0.5(x) *0.5(N1+N2-x)
である。ただし、上記式において、Σは、x=0〜x=N2の和であり、C(N1+N2,x)は、N1+N2個の異なったものからx個のものを取り出す場合の数を示す。
上記の式で示される確率の値が十分小さければ、N1とN2は等価な確率でない、すなわち、N1がN2に比べて有意に大きいことと判断できる。5%検定なら、P1が5%よりも小さいこと、10%検定なら、P1が10%よりも小さいことが、有意に大きいかどうかの判断基準になる。
例えば、N1がN2に比べて有意に大きいと判断されたものを、表現Bに偏ってよく共起して出現する単語とする。また、P1が小さいものほど、表現Bに偏ってよく共起して出現する単語とする。
(カイ二乗検定の場合)
B中のAの出現回数をN1、B中の単語の総出現数をF1、CにあってBにない、Aの出現回数をN2、CにあってBにない、単語の総出現数をF2とする。R1=F1/N1、R2=F2/N2とする。
ここで、N=N1+N2として、
カイ二乗値=(N*(F1*(N2−F2)−(N1−F1)*F2)2 )/((F1+F2)*(N−(F1+F2))*N1*N2)
を求める。
そして、求めたカイ二乗値が大きいほど、R1とR2は有意差があると言え、カイ二乗値が3.84よりも大きいとき、危険率5%の有意差があると言え、カイ二乗値が6.63よりも大きいとき、危険率1%の有意差があると言える。
例えば、N1>N2でかつカイ二乗値が大きいものほど、表現Bに偏ってよく共起して出現する単語とする。
(比の検定(比率の差の検定))
p=(F1+F2)/(N1+N2)、p1=R1、p2=R2として、
Z=|p1−p2|/sqrt(p*(1−p)*(1/N1+1/N2))
を求める。sqrtは、ルートを意味する。
そして、Zが大きいほど、R1とR2は有意差があると言え、Zが1.96よりも大きいとき、危険率5%の有意差があると言え、Zが2.58よりも大きいとき、危険率1%の有意差があると言える。
例えば、N1>N2でかつZが大きいものほど、表現Bに偏ってよく共起して出現する単語とする。
上記の3つの検定の方法と、前述した、単純にB中のAの出現率/C中のAの出現率を求めて判定する方法を組み合わせてもよい。例えば、危険率5%以上有意差があるもののうち、B中のAの出現率/C中のAの出現率の値が大きいものほど表現Bに偏ってよく共起して出現する単語とする。
また、本発明の一実施形態によれば、情報抽出装置1が備える主要表現抽出部11が、ユーザの指定入力に従ってキーワードを入力し、入力したキーワードを含む記事群を所定の記憶手段内に記憶された書誌データ等から抽出し、抽出された記事群における主要表現を抽出し、情報対抽出部12が、主要表現抽出部11によって抽出された主要表現に基づいて、上記記事群を構成する記事から複数の情報の対を情報対として抽出するようにしてもよい。
図2は、本発明の実施の形態における情報抽出処理フローの一例を示す図である。まず、情報抽出装置1は、関連記事DB14中の記事群から主要表現を抽出する(ステップS1)。次に、情報抽出装置1は、抽出された主要表現を用いて、情報対を抽出する(ステップS2)。そして、情報抽出装置1は、抽出された情報対を表示する(ステップS3)。
(実験と考察)
(1)主要表現抽出
本発明の情報抽出装置1を用いて、主要表現抽出の実験を行った。毎日新聞の2000年と2001年の記事より「映画」と「興行収入」、「台風」と「最大風速」、「ビール」と「希望小売価格」のそれぞれのAND検索を行い、3つの記事群を得て、これを実験に用いた。主要表現抽出部11によって抽出された主要表現の例を図3に示す。OkapiのTF項の式を利用し、項目表現では、TFiを表現の出現回数とその表現の文字列長の積とする方法を利用した。図3には、前述したScore(スコア)について上位5つの主要表現を示している。
図3を見ると、それぞれその記事群の主要な表現がうまく抽出されている。例えば、映画のデータだと、その主たる項目表現の「興行収入」が、また単位表現として「円」、「人」などが抽出されている。台風のデータだと、その記事群の主たる項目表現の「最大風速」が、また単位表現として「号」、「メートル」、「キロ」、「ヘクトパスカル」など台風に関連する単位表現が抽出されている。また、ビールのデータだと、その記事群の主たる項目表現の「希望小売価格」、「発泡酒」、「ビール」が、また単位表現として「円」、「ミリリットル」など、台風に関連する単位表現が抽出されている。
(二項組の数値情報のグラフ化)
次に、二項組の数値情報のグラフ化の実験を行った。実験には、上述した3つの記事群を用い、また、上述した方法3に示す評価値の算出式を用い、当該評価式の値が最も大きい情報対をグラフ表示した。本発明の一実施形態によれば、例えば、映画のデータでは、例えば、「円」、「人」が単位表現で、「興行収入」が項目表現の場合のグラフが作成された。また、例えば、台風のデータでは、「メートル」、「ヘクトパスカル」が単位表現で、「最大風速」が項目表現の場合のグラフが作成された。ビールのデータでは、「円」、「ミリリットル」が単位表現で、「希望小売価格」が項目表現の場合のグラフが作成された。それぞれのグラフを図4から図6に示す。
図4に示す映画のデータに基づくグラフと図6に示すビールのデータに基づくグラフについては、数値情報対を取り出した文またはその記事のタイトル、先頭の文などから公知の技術を用いて鍵括弧内の表現を取り出すことで、グラフ内の各プロットに対するラベルに相当する表現(例えば、図4中の「タイタニック」、図6中の「氷結果汁」等)を容易に自動で取り出すことができることから、当該ラベルに相当する表現もグラフに表示している。図4中に、「千と千尋の神隠し」という表現が複数表示されているのは、異なる日時において、当該表現が記事から得られたためである。また、図4中に示すグラフでは、プロットされたされた点に対して原点を通る単回帰直線が求められ、この直線の式から、概略一人1,400円を払って入場していることがわかる。また、図4中に表示された「タイタニック」は直線の上側に、「千と千尋の神隠し」が直線の下側にあるため、大人向けと思われるタイタニックは平均よりも一人当たり高い料金を払っており、子供向けと思われる千と千尋の神隠しは平均よりも一人当たり安い料金を払っていることもわかる。図5中に示す台風のデータに基づくグラフでは、気圧が低いと風速も大きくなることがわかる。また同じ気圧でも異なる風速になることがあることもわかる。図6中に示すビールのデータに基づくグラフでは、ビールの値段と容量がわかる。
図7は、マラソンに関する記事群に基づいて情報抽出装置が抽出した情報対のグラフ表示例である。この例における主要表現を構成する項目表現は「スタート時」、単位表現は、「%」、「メートル」、「度」である。図7においては、「メートル」の値の大きさは、円の大きさで示される。図8は、抽選に関する記事群に基づいて情報抽出装置が抽出した情報対のグラフ表示例である。この例における主要表現を構成する項目表現は「抽選」、単位表現は、「ミリリットル」、「人」、「本」である。図8においては、「人」の値の大きさは、円の大きさで示される。
図9は、オリンピック、アジア大会などに関する記事群に基づいて情報抽出装置が抽出した情報対のグラフ表示例である。この例における主要表現を構成する項目表現は「地域」、単位表現は、「カ国」、「競技」、「種目」、「人」である。図9中に表示されている大会名(長野パラリンピック冬季大会、長野冬季五輪、バンコク・アジア大会、冬季アジア大会)は、各単位表現に基づいて抽出された数値情報対に対応する大会名であり、この例では、人手で上記グラフ上に表示させている。図10は、主要表現を構成する項目表現が「地域」、単位表現は、「カ国」、「競技」、「種目」、「人」の場合に情報抽出装置によって抽出される情報対を顔グラフで表示した例である。このように、表示部13は、情報対を顔グラフの形式で表示するようにしてもよい。
一般に、顔グラフは、各変数を顔の頭の大きさ、鼻の長さ、眉毛などで表現し、データを直感的にわかりやすく表現したグラフである。本発明の一実施形態においては、表示部13は、例えば、顔の幅の大きさを単位表現「競技」に関する数値情報の大きさで示し、耳の位置を単位表現「カ国」に関する数値情報の大きさで示し、顔上半分の楕円の離心率の大きさを単位表現「人」に関する数値情報の大きさで示す。図10(A)は例えば長野パラリンピック冬季大会に対応する情報対についての顔グラフ、図10(B)は例えば長野冬季五輪に対応する情報対についての顔グラフ、図10(C)は例えばバンコク・アジア大会に対応する情報対についての顔グラフ、図10(D)は例えば冬季アジア大会に対応する情報対についての顔グラフである。
図11は、新幹線の窓ガラスのひびわれに関する記事群に基づいて情報抽出装置が抽出した情報対のグラフ表示例である。この例における主要表現を構成する項目表現は「走行中」、単位表現は、「号」、「人」、「号車」、「両」である。
次に、本発明の変形例について説明する。本発明の変形例においては、情報抽出装置1の主要表現抽出部11は、関連記事DB14中の記事群から主要表現を抽出するのではなく、図1では図示を省略する大規模コーパス(例えば、数年分の新聞等の記事)から主要表現を抽出する。
例えば、主要表現抽出部11が、毎日新聞の数年分まるごと全ての記事群から、同一文に出現している単位表現と時間表現と項目表現との組や、2つの単位表現と、項目表現との組や、3つの単位表現と、項目表現等との組を主要表現の組として抽出する。主要表現抽出部11は、抽出した主要表現の総出現頻度、その組の出現した記事数を求めて、それぞれの値の高い順に並べて、表示部13に表示させてもよい。そして、情報対抽出部12が、ユーザの指定入力に従って、上記主要表現の組を選択し、上記記事群において選択された主要表現の組が同時に出現する箇所を特定し、その箇所に記載されている数値情報の対(数値情報対)を抽出し、抽出した数値情報の対と項目表現との対を情報対としてもよい。そして、表示部13が、上記情報対をグラフ表示してもよい。上述した本発明の変形例によれば、大規模コーパス全体に隠れている、ユーザにとって興味のある情報を抽出しグラフ表示をすることができる。
本発明の変形例を用いた実験結果について説明する。1998年および1999年の毎日新聞の記事データを大規模コーパスとして用い、単位×n個+項目の組を主要表現として抽出した。
主要表現の抽出結果の例は、図12の表に示すとおりである。図12中において、「単位数」は単位表現の個数、「単位−名詞組合せのリスト」は、主要表現抽出部11が抽出した主要表現の組の種類の数、「記事数5以上」は,抽出された主要表現の組のうち、5以上の記事に出現した組の種類の数、「棋譜、野球等を除外」は、棋譜、野球等に関連する表現を取り除いたデータにおいて出現した組の種類の数(単位数が2のものを除く)、「記事数5以上(削除後)」は、棋譜、野球等に関連する表現を取り除いたデータにおいて、5以上の記事に出現した組の種類の数(単位数が2のものを除く)、「選択数」は、当該組を人手で眺めて面白いと思ったものである。
上記の手法によって、実際にユーザの指定入力に従って、情報対抽出部12が単位表現、項目表現の組を選択し、選択された単位表現、項目表現の組に基づいて数値情報対を抽出し、抽出された数値情報対をグラフ表示した。
実験では、単位なし数字のみ、及び時間軸にかかわる単位表現(「年」「月」「日」「時」「分」「秒」)は、単位のリストに含めていない。
単位3以上での、棋譜、野球関係の除外は、棋譜および野球にかかわる単位表現が含まれる組み合わせを削除している。例えば("期"," 局"," 段"," 歩"," 飛"," 角"," 銀"," 金"," 桂"," 香"," 玉"," 塁"," 死"," 勝"," 負"," 敗")の単位表現のうち一つでも含まれれば除いている。これは、棋譜、野球で、単位表現の組の情報が得られやすいが、そこで得られる情報はそれほど面白いものではないため、それを除くためである。
(2つの単位表現+項目表現の場合)
10001 0 1386 勝@敗−負
10002 0 1316 勝@敗−勝
10003 0 1305 勝@敗−登板
10004 0 773 期@段−将棋
10005 0 761 円@当たり−当たり
10006 0 705 期@局−名人戦
10007 0 704 期@局−将棋
10008 0 653 局@番−勝負
10009 0 653 期@番−勝負
...
10118 0 189 歳@人−昨年
10119 1 189 円@平方メートル−価格
10120 0 187 階建て@平方メートル−午前
...
10957 0 62 キロワット@号機−原電
10958 1 62 キロ@号−台風
10959 0 62 キロ@ピコ−グラム
...
41257 0 32 ドル@円−利益
41258 1 32 トン@人−パナマ船籍
41259 0 32 センチ@枚−縦
...
41516 0 30 メートル@位−ノルディックスキー
41517 1 30 ミリグラム@リットル−環境基準
41518 1 30 ヘクトパスカル@メートル−中心気圧
41519 1 30 ヘクトパスカル@メートル−気圧
41520 0 30 ピコ@当たり−耐容
....
といったデータが主要表現抽出部11によって抽出され、情報対抽出部12が、ユーザの指定入力に従って、2つの単位表現+項目表現の組を選択する。
上記のデータにおいて、1列目はデータID、2列目は「1」が情報対抽出部12によって選択されるもの、「0」は選択されないもの、3列目は2つの単位表現+項目表現の組が出現した記事数、4列目は2つの単位表現+項目表現の組を、単位表現@単位表現−項目表現の形式で示している。
例えば、
41518 1 30 ヘクトパスカル@メートル- 中心気圧
というデータに基づいて、台風のデータの気圧、風速の対をグラフ表示するための情報対を抽出することができた。
(3つの単位表現+項目表現の場合)
30001 0 159 ドル@円@銭−一時
30002 0 158 ドル@円@銭−前日午後
30003 0 153 ドル@円@銭−円
30004 0 146 ドル@円@銭−午後
30005 0 131 ドル@円@銭−午前
...
30028 0 58 割@試合@厘−打率
30029 1 57 階@階建て@平方メートル−出火
30030 0 57 安打@回@失点−日本時間
30031 0 56 円@社@店−前年同月比
30032 1 56 キロワット@号機@次−福井県敦賀市
30033 0 56 アンダー@ボギー@位−通算
...
30227 0 24 チーム@位@組−各組
30228 1 24 キロ@ヘクトパスカル@メートル−中心付近
30229 1 24 キロ@ヘクトパスカル@メートル−中心
30230 0 24 オーバー@ヤード@ラウンド−パー
...
30236 0 24 %@歳@人−調査
30237 1 24 %@メートル@度−スタート時
30238 0 23 回@着@頭−賞金
...
といったデータが主要表現抽出部11によって抽出され、情報対抽出部12が、ユーザの指定入力に従って、3つの単位表現+項目表現の組を選択する。
例えば、
30237 1 24 %@メートル@度−スタート時
というデータに基づいて、マラソンのデータの湿度、風速、気温の対をグラフ表示するための情報対を抽出することができた。
(4つの単位表現+項目表現の場合)
40001 0 54 アンダー@バーディー@ボギー@位−通算
40002 0 53 割@打点@本塁打@厘−打率
40003 0 41 %減@円@社@店−前年同月比
40004 0 35 %減@円@社@店−売上高
40005 0 34 割@試合@本塁打@厘−打率
40006 0 34 割@試合@打点@本塁打−打率
40007 0 31 割@試合@打点@厘−打率
40008 0 28 メートル@円@回@頭−芝
40009 0 27 試合@打点@本塁打@厘−打率
40010 0 27 メートル@円@回@頭−賞金
...
40505 0 8 キロ@周@勝目@戦−マクラーレン・メルセデス
40506 1 8 キロ@トン@円@人−末端価格
40507 1 8 キロ@トン@円@人−覚せい剤
40508 0 8 キロ@チーム@回@区間−日本実業団陸上競
...
40527 0 7 打点@番@本塁打@厘−打率
40528 1 7 字詰め@人@編@枚目−原稿用紙縦書き
40529 1 7 字詰め@人@編@枚目−応募資格
40530 1 7 試合@打点@本塁打@厘−今季
40531 1 7 号@号車@人@両−走行中
40532 1 7 号@号車@人@両−車掌
40533 1 7 競走@歳@着@頭−賞金
40534 0 7 競走@歳@着@頭−芝
...
40510 0 8 キロ@ステージ@位@回−モーリタニア
40511 1 8 カ国@競技@種目@人−地域
40512 0 8 カ国@位@次@組−リーグ
...
といったデータが主要表現抽出部11によって抽出され、情報対抽出部12が、ユーザの指定入力に従って、4つの単位表現+項目表現の組を選択する。
例えば、
40511 1 8 カ国@競技@種目@人- 地域
というデータに基づいて、オリンピックやアジア大会に関する情報対を抽出することができた。
本発明の他の変形例について説明する。本発明の他の変形例においては、情報抽出装置1の情報対抽出部12が、主要表現(例えば、単位表現、単位表現、第1の項目表現)を同時に含む文や記事を関連記事DB14中の記事群から抽出し、例えば、上記文や記事に出現している名詞連続を、頻度順に並べて、表示部13に表示させるようにしてもよい。そして、情報対抽出部12が、ユーザの指定入力に従って、名詞連続を新たな主要表現(例えば、第2の項目表現)として選択し、関連記事DB14中の記事群において、上記の主要表現(単位表現、単位表現、第1の項目表現)と第2の項目表現とが同時に出現している箇所を特定し、その箇所に記載されている数値情報の対(数値情報対)を抽出し、抽出した数値情報の対と第1及び第2の項目表現との対を情報対としてもよい。なお、情報対抽出部12が、ユーザの指定入力に従って、名詞連続を新たな単位表現として選択するようにしてもよいし、名詞連続を時間表現として選択するようにしてもよい。
本発明の更に他の変形例について説明する。本発明の更に他の変形例においては、情報対抽出部12が、情報対が抽出された記事群を構成する各記事を各記事が属するクラスターにクラスタリングする。そして、表示部13が、各クラスターに属する記事から抽出された情報対について、クラスター毎に相関分析を行い、当該相関分析の結果に基づいて、各クラスターに属する記事から抽出された情報対をクラスター毎にグラフ化して表示する。相関分析とは、例えば、2つのデータの相関を分析することをいい、より具体的には、x軸、y軸の2軸のグラフ上に情報対のプロットが並んでいる場合において、x軸に対応するデータ(例えば数量表現)とy軸に対応するデータ(例えば数量表現)とに相関があるかを見る分析である。グラフのプロットの並びが直線に近くなっていれば相関があると言える。表示部13は、例えば、グラフのプロットについて相関分析を行う際に、2つのデータが、どの程度直線的な関係にあるかを示す相関係数を算出してもよい。
表示部13は、各クラスターに属する記事から抽出された情報対に基づいて生成するクラスター毎のグラフデータにおいて、x軸に対応する数量表現とy軸に対応する数量表現とに相関があるかを分析し、当該分析の結果、相関があるとされたグラフデータ、又は、相関係数が所定の値以上のグラフデータのみをグラフ化して表示するようにしてもよい。
なお、表示部13は、当該相関分析の結果、相関があるとされたグラフデータ、又は、相関係数が所定の値以上のグラフデータを、当該グラフデータに対応する情報対の前述した評価値Mが大きい順にソートし、各グラフデータをグラフとして表示するようにしてもよい。
また、本発明の一実施形態によれば、表示部13が、情報対抽出部12によって抽出された情報対について相関分析を行い、相関分析の結果に基づいて、上記情報対をグラフ化して表示するようにしてもよい。例えば、表示部13は、5種類の数値表現と5種類の項目表現との組合せの数(25個)だけの種類の情報対について前述した相関分析を行い、当該相関分析の結果、相関があるとされた情報対、又は、相関係数が所定の値以上である情報対のみをグラフ化して表示するようにしてもよい。
なお、本発明は、コンピュータにより読み取られ実行されるプログラムとして実施することもできる。本発明を実現するプログラムは、コンピュータが読み取り可能な、可搬媒体メモリ、半導体メモリ、ハードディスクなどの適当な記録媒体に格納することができ、これらの記録媒体に記録して提供され、または、通信インタフェースを介してネットワークを利用した送受信により提供されるものである。
本発明のシステム構成の一例を示す図である。 情報抽出処理フローの一例を示す図である。 主要表現の例を示す図である。 二項組の数値情報のグラフの例を示す図である。 二項組の数値情報のグラフの例を示す図である。 二項組の数値情報のグラフの例を示す図である。 情報対のグラフ表示例である。 情報対のグラフ表示例である。 情報対のグラフ表示例である。 情報対のグラフ表示例である。 情報対のグラフ表示例である。 主要表現の抽出結果の例である。
符号の説明
1 情報抽出装置
11 主要表現抽出部
12 情報対抽出部
13 表示部
14 関連記事DB
111 主要単位表現抽出部
112 主要項目表現抽出部

Claims (7)

  1. 項目表現と複数の数値情報との対を情報対として抽出する情報抽出装置であって,
    ある分野に関連する記事群から, 前記記事群における主要表現を抽出する主要表現抽出手段と,情報対抽出手段と,表示手段とを備え
    前記主要表現抽出手段は,前記記事群から該記事群全体に高頻度に出現する複数の単位表現を抽出する主要単位表現抽出手段と,前記記事群から該記事群全体に高頻度に出現する項目表現を抽出する主要項目表現抽出手段とを備え,
    前記情報対抽出手段は,前記主要表現抽出手段で抽出された項目表現と複数の単位表現とからなる主要表現をすべて含む記事を前記記事群から抽出し,更に,前記主要表現のうちの前記複数の単位表現のそれぞれに関連する数値を各単位表現ごとに一つずつ抽出することで複数の数値を抽出して,単位表現と数値を合わせて数値表現として抽出し,複数の数値表現を合わせて数値情報対として抽出し,
    前記表示手段は,前記抽出された項目表現と数値情報対を情報対として表示する
    ことを特徴とする情報抽出装置。
  2. 請求項1に記載の情報抽出装置において,
    前記情報対抽出手段が,前記主要表現抽出手段で抽出された項目表現と複数個の単位表現とからなる主要表現をすべて含む記事を前記記事群から抽出し,抽出された記事に出現している名詞連続を新たな主要表現として選択し,前記主要表現抽出手段によって抽出された主要表現と前記選択された主要表現とに基づいて,前記記事群を構成する記事から前記項目表現と数値情報対からなる情報対を抽出する
    ことを特徴とする情報抽出装置。
  3. 請求項1に記載の情報抽出装置において,
    前記情報対抽出手段が,更に,前記抽出された情報対を前記情報対が属するクラスターにクラスタリングし,
    前記表示手段が,前記クラスタリングされた情報対を前記情報対が属するクラスター毎にグラフ化して表示する
    ことを特徴とする情報抽出装置。
  4. 請求項1に記載の情報抽出装置において,
    前記表示手段が,前記情報対抽出手段によって抽出された情報対について相関分析を行い,前記相関分析の結果に基づいて,前記情報対をグラフ化して表示する
    ことを特徴とする情報抽出装置。
  5. 請求項1乃至請求項4に記載の情報抽出装置において,
    前記表示手段が,前記情報対が抽出された前記記事群を構成する各記事から前記情報対に対応する記述表現を抽出し,前記抽出した記述表現を前記情報対についてグラフ上に表示する
    ことを特徴とする情報抽出装置。
  6. 項目表現と複数の数値情報との対を情報対として抽出する情報抽出方法であって,
    ある分野に関連する記事群の全体に高頻度に出現する複数の単位表現を抽出し,
    前記記事群の全体に高頻度に出現する項目表現を抽出し,
    前記抽出された複数の単位表現と項目表現とからなる主要表現をすべて含む記事を前記記事群から抽出し,前記主要表現のうちの前記複数の単位表現のそれぞれに関連する数値を各単位表現ごとに一つずつ抽出することで複数の数値を抽出して,単位表現と数値を合わせて数値表現として抽出し,複数の数値表現を合わせて数値情報対として抽出し,
    前記抽出された項目表現と数値情報対を情報対として表示する
    ことを特徴とする情報抽出方法。
  7. 項目表現と複数の数値情報との対を情報対として抽出する情報抽出プログラムであって,
    コンピュータに,
    ある分野に関連する記事群の全体に高頻度に出現する複数の単位表現を抽出する処理と,
    前記記事群の全体に高頻度に出現する項目表現を抽出する処理と,
    前記抽出された複数の単位表現と項目表現とからなる主要表現をすべて含む記事を前記記事群から抽出し,前記主要表現のうちの前記複数の単位表現のそれぞれに関連する数値を各単位表現ごとに一つずつ抽出することで複数の数値を抽出して,単位表現と数値を合わせて数値表現として抽出し,複数の数値表現を合わせて数値情報対として抽出する処理と,
    前記抽出された項目表現と数値情報対を情報対として表示する処理と,
    を実行させることを特徴とする情報抽出プログラム。
JP2006191076A 2006-07-12 2006-07-12 情報抽出装置、情報抽出方法及び情報抽出プログラム Expired - Fee Related JP4894037B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006191076A JP4894037B2 (ja) 2006-07-12 2006-07-12 情報抽出装置、情報抽出方法及び情報抽出プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006191076A JP4894037B2 (ja) 2006-07-12 2006-07-12 情報抽出装置、情報抽出方法及び情報抽出プログラム

Publications (2)

Publication Number Publication Date
JP2008021052A JP2008021052A (ja) 2008-01-31
JP4894037B2 true JP4894037B2 (ja) 2012-03-07

Family

ID=39076940

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006191076A Expired - Fee Related JP4894037B2 (ja) 2006-07-12 2006-07-12 情報抽出装置、情報抽出方法及び情報抽出プログラム

Country Status (1)

Country Link
JP (1) JP4894037B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5315890B2 (ja) * 2008-09-24 2013-10-16 日本電気株式会社 評価システムおよび評価方法
WO2020059025A1 (ja) * 2018-09-18 2020-03-26 日本電気株式会社 データ解析支援装置、データ解析支援方法、及びコンピュータ読み取り可能な記録媒体

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1145251A (ja) * 1997-07-25 1999-02-16 Just Syst Corp 検索機能を用いた情報分析支援装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3154992B2 (ja) * 1999-05-13 2001-04-09 株式会社ジャストシステム 情報検索装置、及び情報検索プログラムが記憶された記憶媒体
JP2001125994A (ja) * 1999-10-29 2001-05-11 Toshiba Medical System Co Ltd 医用レポートシステム
JP3845727B2 (ja) * 2002-09-27 2006-11-15 独立行政法人情報通信研究機構 統計的検定を利用した質問応答システム
JP2006139487A (ja) * 2004-11-11 2006-06-01 Nippon Telegr & Teleph Corp <Ntt> 情報概要提示装置

Also Published As

Publication number Publication date
JP2008021052A (ja) 2008-01-31

Similar Documents

Publication Publication Date Title
Sebba Discourses in transit
Hoffer Language borrowing and the indices of adaptability and receptivity
CN103198057B (zh) 一种自动给文档添加标签的方法和装置
Saugera Remade in France: Anglicisms in the lexicon and morphology of French
JP4595692B2 (ja) 時系列文書集約方法及び装置及びプログラム及びプログラムを格納した記憶媒体
Douglas Scottish newspapers, language and identity
McCarthy et al. Vocabulary in Use Upper Intermediate Without Answers
JP4894037B2 (ja) 情報抽出装置、情報抽出方法及び情報抽出プログラム
Mfusi Soweto Zulu slang: a sociolinguistic study of an urban vernacular in Soweto
JP2009237640A (ja) 情報抽出装置、情報抽出方法および情報抽出プログラム
Pearce The linguistic landscape of north-east England
JP5182845B2 (ja) 情報抽出装置、情報抽出方法及び情報抽出プログラム
Corr Anglicisms in German Computing Terminology
Brezina et al. A frequency dictionary of British English: core vocabulary and exercises for learners
Dahlberg-Dodd Script variation as audience design: Imagining readership and community in Japanese yuri comics
Dunham The Editor's Companion: An Indispensable Guide to Editing Books, Magazines, Online Publications, and Mor e
Scott Midlands cadences: Narrative voices in the work of Alan Sillitoe
Rosa et al. WORD FORMATION OF ENGLISH LOANWORDS IN MODE RUBRIC OF FRENCH VOGUE PARIS MAGAZINE
Shatil Noun patterns and their vitality in modern Hebrew
Seidel The usage and integration of English loanwords in German a corpus-based study of anglicisms in Der Spiegel magazine from 1990–2010
Moss Pseudoanglicisms in Italian: Concept and Usage
Vörös Creativity in advertising slogans based on word-formation
Huggan Consuming India
Khairunnisa Word Formation Analysis in Indonesian Clothing Line in Instagram
Dee “Personality and Color into Everything He Does”: Henry Rose (1899-1958)—Journalist, Celebrity, and the Forgotten Man of the Munich Disaster

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090422

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090428

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090428

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110426

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110614

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111206

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111209

R150 Certificate of patent or registration of utility model

Ref document number: 4894037

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150106

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees