JP2007047974A - 情報抽出装置および情報抽出方法 - Google Patents

情報抽出装置および情報抽出方法 Download PDF

Info

Publication number
JP2007047974A
JP2007047974A JP2005230686A JP2005230686A JP2007047974A JP 2007047974 A JP2007047974 A JP 2007047974A JP 2005230686 A JP2005230686 A JP 2005230686A JP 2005230686 A JP2005230686 A JP 2005230686A JP 2007047974 A JP2007047974 A JP 2007047974A
Authority
JP
Japan
Prior art keywords
information
pattern
search word
extracted
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005230686A
Other languages
English (en)
Inventor
Atsuyoshi Nakamura
篤祥 中村
Mineichi Kudo
峰一 工藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hokkaido University NUC
Original Assignee
Hokkaido University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hokkaido University NUC filed Critical Hokkaido University NUC
Priority to JP2005230686A priority Critical patent/JP2007047974A/ja
Publication of JP2007047974A publication Critical patent/JP2007047974A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 不特定のウェブサイトのページから、ある検索語に関する特定の情報をブロック単位で抽出すること。
【解決手段】 本情報抽出装置は、HTMLなどで記述された半構造化情報における検索語と検索語に関する特定情報との間の構造的位置関係を表すパターンから成るパターン集合に基づいて、ウェブページの集合から検索語に関する特定情報の候補をブロック単位で抽出し、抽出された特定情報の候補の中から情報分類技術を用いて特定情報を選択する。
【選択図】 図1

Description

本発明は、ウェブページから、ある検索語に関する評判情報などの特定の情報を自動的に抽出する情報抽出装置および情報抽出方法に関する。
従来、ウェブページから、ある検索語に関する評判情報などの特定の情報を自動的に抽出する技術としては、LRラッパー(非特許文献1)やTreeラッパー(非特許文献2)などの方法がある。これらは、HTMLで記述されたタグ構造を利用しており、抽出したい情報の周囲に見られる共通構造を取り出し、それを抽出規則とする。特定のウェブサイト内のページからある検索語に関する評判情報を抽出する場合、サイト内でHTMLの記述フォーマットが決まっており、タグ構造が共通であることが多いため、これらの方法を用いることで検索語と評判情報の組を抽出できる。
また、これとは別の方法として、特許文献1の方法などの自然言語処理を用いた方法がある。この方法では、特定の情報の抽出にタグ構造などのHTML特有の特徴は用いず、ウェブページ中の文章の部分句や意味構造などの言語的特徴を用いる。特許文献1の方法について、ある検索語(例えば、書籍名)に関する評判情報を抽出する場合を例にして説明する。まず、「良い」「最高だ」「面白い」などの評価表現を格納した評価表現辞書を作成しておく。ユーザが検索語と文章を特許文献1の装置に入力すると、この装置は、検索語、および評価表現辞書に格納された表現が、文章内に存在するかどうかを検索する。そして、評価表現および検索語が共に存在した場合、これら両方を含む文を抽出することで、ある検索語に関する評判情報を抽出する。
特開2002−175330号公報 N. Kushmerick, "Wrapper Induction: Efficiency and expressiveness", Artificial Intelligence, 2000, 118, p.15-68. 村上義継、外4名,「HTMLからのテキストの自動切り出しアルゴリズムと実装」,情報処理学会論文誌:数理モデル化と応用,2001,vol.42,no.SIG14-006,p.39-49.
しかしながら、LRラッパーやTreeラッパーなどの抽出したい情報の周囲の共通構造を取り出す方法では、基本的に教師データと同一サイトのページにしか適用できず、HTMLなどの記述フォーマットがそれぞれ異なる不特定サイトのページには拡張できないという問題がある。これらの手法は、抽出すべき情報の周囲の構造に共通のパターンを求めるが、不特定のサイトのページには共通のパターンが存在しないためである。また、自然言語処理を用いた特許文献1の方法では、抽出単位がブロックではなく文になってしまう、という問題がある。この手法は、半構造化情報の構造を認識しておらず、情報をブロック単位に分けることができないためである。
本発明はかかる点に鑑みてなされたものであり、不特定のウェブサイトのページから、ある検索語に関する特定の情報をブロック単位で抽出することができる、情報抽出装置を提供することを目的とする。
本発明の情報抽出装置は、ウェブページの半構造化情報における検索語と前記検索語に関する情報との間の構造的位置関係を表すパターンから成るパターン集合に基づいて、前記ウェブページの集合から前記検索語に関する情報候補をブロック単位で抽出する情報候補抽出手段と、前記情報候補抽出手段によって抽出されたブロック単位の前記情報候補を情報分類技術によって評価し、前記ブロック単位の情報候補を抽出するべき情報と抽出するべき情報以外にそれぞれ分類する情報分類手段と、を有する構成を採る。
本発明の情報抽出方法は、ウェブページの半構造化情報における検索語と前記検索語に関する情報との間の構造的位置関係を表すパターンから成るパターン集合に基づいて、前記ウェブページの集合から前記検索語に関する情報候補をブロック単位で抽出する情報候補抽出ステップと、前記情報候補抽出ステップで抽出されたブロック単位の前記情報候補を情報分類技術によって評価し、前記ブロック単位の情報候補を抽出するべき情報と抽出するべき情報以外にそれぞれ分類する情報分類ステップと、を有するようにした。
本発明の情報抽出プログラムは、コンピュータに、ウェブページの半構造化情報における検索語と前記検索語に関する情報との間の構造的位置関係を表すパターンから成るパターン集合に基づいて、前記ウェブページの集合から前記検索語に関する情報候補をブロック単位で抽出させ、抽出されたブロック単位の前記情報候補を情報分類技術によって評価し、前記ブロック単位の情報候補を抽出するべき情報と抽出するべき情報以外にそれぞれ分類させるようにした。
本発明によれば、不特定のウェブサイトのページから、ある検索語に関する特定の情報をブロック単位で抽出することができる。
以下、本発明の実施の形態について、図面を参照して詳細に説明する。
図1は、本発明の一実施の形態に係る情報抽出装置の構成を示すブロック図である。
図1に示す情報抽出装置100は、インターネット200を経由して検索サイト300に接続できるコンピュータシステムで構成されており、情報抽出装置100は、大別して、入力装置110、コンピュータ本体120、および出力装置130を有する。
入力装置110は、例えば、キーボードやマウスなどである。出力装置130は、例えば、ディスプレイやプリンタなどである。このとき、入力装置110および出力装置130はインターネット経由の接続でも構わない。この場合、例えば、ユーザは、別の場所にあるコンピュータからインターネットを介して情報抽出装置100のコンピュータ本体120に入力し、その抽出結果をユーザの使用しているコンピュータに出力することができる。
コンピュータ本体120は、大別して、検索処理部140、学習処理部150および記憶部160からなる。
検索処理部140は、検索語入力部141、ウェブページ取得部142、情報候補抽出部143、情報候補分類部144、情報選択部145、情報出力部146、を有し、ウェブページから特定の情報を抽出する。
学習処理部150は、学習用検索語入力部151、学習用ウェブページ取得部152、情報範囲入力部153、パターン集合学習データ作成部154、抽出パターン生成部155、情報分類器学習部156、を有し、教師データから情報抽出規則を学習する。
記憶部160は、検索処理部140および学習処理部150で生成された各種データを記憶し、必要に応じて読み出す。
まず、検索処理部140の各構成要素について説明する。
検索語入力部141は、ユーザによって操作される入力装置110と検索処理部140とを接続するインターフェースとしての機能を有し、入力装置110からユーザにより入力される検索語を入力処理して検索処理部140が処理可能なデータ形式に変換する。変換された検索語は、記憶部160の検索語データベース161へ格納されるとともにウェブページ取得部142へ渡される。
ウェブページ取得部142は、検索語入力部141から取得した検索語を使ってインターネット200を経由して一般の検索サイト300で検索を行い、検索語に関するウェブページの集合を取得する。取得したウェブページは、記憶部160のウェブページデータベース162へ格納されるとともに情報候補抽出部143へ渡される。
情報候補抽出部143は、ウェブページ取得部142によって取得されたウェブページの集合から、検索語に関する特定情報の候補(以下「情報候補」という)を抽出する。抽出規則には、学習処理部150によって生成されたパターン集合を構成する各パターンを用いる。パターンとは、HTMLやXMLなどで記述された半構造化情報における検索語とその検索語に関する特定情報との構造的位置関係を指定する規則である。ウェブページに対してパターンを当てはめてみれば、そのウェブページ中における特定情報と思われる情報(情報候補)の特定および抽出ができる(後述する)。以後、パターンを当てはめる処理を「パターンマッチング」といい、パターンが当てはまることを「マッチする」という。抽出された情報候補は、情報候補分類部144へ渡される。
以下、HTMLで記述されたウェブページを例にして、情報候補の抽出原理について具体的に説明する。まず、取得されたウェブページは、HTMLパーサによりタグ構造に基づいてDOM木(DOM:Document Object Model)に変換される。例えば、図2(A)のHTMLテキストは、図2(B)のDOM木に変換される。DOM木は、HTMLのタグをノードのラベルとして持つほか、テキストノード(#text)は、その位置に置かれたテキスト情報をさらに持つ。なお、"#text"というタグはHTMLにはないが、本発明ではテキストノードはこのタグの値を持つことにする。
図3(A)は、パターンの一例(P,5)である。パターン(P,r)は、パターン木Pと、葉ノード間の距離の制限rと、からなっている。パターン木Pは、根ノードと葉ノードを結ぶ二つのパスからなっている。一つはキーワードノードと呼ぶ、検索語が含まれる葉ノードへのパス、キーワードパスであり(図3(B))、もう一つはターゲットノードと呼ぶ、検索語に関する特定の情報が含まれる葉ノードへのパス、ターゲットパスである(図3(C))。DOM木におけるノード間の距離は、深さ優先の木のなぞりにおける訪問順(前順)をノードのIDとした場合のIDの差で定義する(図2(B)の各ノードの番号を参照)。例えば、図2(B)のDOM木において、左下のテキストノード(Little Sapporo: My…)は、IDが4番、右下のノード(tel: 000-…)は、IDが15番なので、これらのノード間の距離は、15−4=11となる。葉ノード間の距離の制限rは、キーワードノードとターゲットノードにマッチするノードがDOM木にあった場合における、それら二つのノード間のIDの差に対しての制限である。例えば、図3(A)のパターンでは、r=5なので、DOM木におけるキーワードノードとターゲットノードにマッチする二つのノードがあったとしても、これらのノードのIDの差は5以下でなければならない。制限値rの決め方は、後述する。
情報候補抽出部143は、変換されたDOM木に対し、パターン集合内の各パターンとのパターンマッチングを行い、情報候補と思われるノード(ターゲットノードにマッチしたノード)を特定し、情報候補の抽出を行う。検索語が"Little Sapporo"、パターンが図3(A)のパターン(P,5)、DOM木が図2(B)の場合を例にして、情報候補抽出の流れを図4で説明する。
最初に、与えられた検索語が出現するテキストノードを探索することにより、キーワードノードのマッチングを行う。図2(B)のDOM木では、4番と8番のノードに"Little Sapporo"が含まれているので、これら二つのノードがキーワードノードにマッチする。以降、図4(A)のように、8番のノードがキーワードノードにマッチしたとして、情報候補抽出の流れを説明する。
次に、キーワードパスのマッチングを行う。パスは、タグが一致するノードが同じ順(先祖と子孫の関係を保つ順)で出現する場合のみマッチする。ここでは、HTMLの記述フォーマットの違いを吸収し、不特定サイトに対応できるように、二つのノードが隣接する場合とその間に他ノードが介在する場合との双方を同一の構造的位置関係とみなす。すなわち、図4(B)のように不連続(親と子の関係ではなく先祖と子孫の関係)でマッチしても構わないようにする。
次に、ターゲットパスのマッチングを行う。キーワードパスのマッチングで、パターン木の根ノードとマッチするノードが一つ定まるので、そこからターゲットパスのマッチングを行う。これもキーワードパスのときと同様、図4(C)のように不連続(親と子の関係ではなく先祖と子孫の関係)でマッチしても構わない。ターゲットノードにマッチするノードが見つかった場合、キーワードノードにマッチしたノードのIDとターゲットノードにマッチしたノードのIDの差を求め、それがr以下であれば、そのノードはパターン(P,r)とマッチしたものとみなす。図3(A)のパターン(P,5)はr=5だが、図4(C)ではキーワードノートおよびターゲットノードにマッチした二つのノードのIDの差が4(=12−8)なので、パターン(P,5)とマッチすることになる。
最後に、情報候補を抽出する。パターン(P,r)がマッチした場合は、図4(D)のように、ターゲットノードとマッチしたノードを根とする部分木に含まれる情報を抽出し、それを情報候補とする。パターン集合には複数のパターンが含まれているが、いずれかのパターンにマッチする情報は、全て情報候補とする。そのため、情報候補は、1ページから複数抽出されることがある。
情報候補分類部144は、学習処理部150によって生成された情報分類器に、情報候補抽出部143によって抽出された情報候補を一つずつかけ、それぞれの内容を情報分類技術によって評価して、抽出するべき情報と抽出するべきではない情報とに分類する。抽出するべき情報には「ターゲット情報(+1)」と、抽出するべきではない情報には「ターゲット情報以外(−1)」とラベル付けする。ラベル付けされた情報候補は、情報選択部145へ渡される。
情報分類器にはいかなる分類器も利用できるが、本実施の形態では、情報分類器としてSVM(support vector machines)を用い、分類器の特徴ベクトルとして索引語ベクトルを用いる。索引語とは、情報の内容を特徴付けるうえで重要な単語のことを呼び、この索引語の重みを要素とするベクトルで情報を表現する。ここで用いる重みとしては、例えば、二進重み、索引語頻度、およびTF−IDF重み、などが挙げられる。
情報選択部145は、情報候補およびそれに付けられたラベルに基づいて、検索語に関する特定の情報と分類された情報を選択する。「ターゲット情報」とラベル付けされた情報候補が一つもないページには、抽出するべき情報は存在しないものと判断する。「ターゲット情報」とラベル付けされた情報候補が複数あるページでは、その中でターゲットノードとキーワードノードにマッチしたノード間の距離が最小のノードの情報を一つだけ選択する。この場合、もっと単純に、ラベルが「ターゲット情報」であるノードでIDが最小のものを選択する方法も考えられる。選択された情報は、情報出力部146へ渡される。
情報出力部146は、選択された情報を出力装置130が表示できるようなデータ形式に変換する。例えば、ウェブブラウザに表示できるように、HTMLテキストへ変換する。変換されたデータは、出力装置130へ渡される。
選択された情報は、そのまま列挙したものを表示してもよいが、情報に優先度をつけ、優先度の高い結果から順に表示するようにしてもよい。優先度に情報の信頼度をうまく反映させることができれば、ユーザはその値も判断基準に使うことができるようになるので、判断を誤る可能性が減ると考えられる。
本実施の形態では、優先度を構成するものとして二つの基準を用いる。
一つ目の基準は、情報候補分類部144において情報に対して出力されたSVMの値である。情報候補分類部144で分類器として用いたSVMは、特徴ベクトルを入力すると実数値(識別境界からのマージン)を出力する。情報候補分類部144で情報候補のノードに付加するラベルは、分類器SVMの出力をmとした時、mが正ならば+1(ターゲット情報)、負ならば−1(ターゲット情報以外)である。しかし、ここでは、優先度の基準としてこのSVMの出力である実数値mを用いる。この値が大きいノードの情報は、小さいものよりも分類器によってより抽出するべき情報らしいとされた情報となる。
二つ目の基準は、キーワードノードおよびターゲットノードにマッチした、二つのノード間のIDの差rである。これは、DOM木において二つのノードがどれだけ離れているかを示す。この値が小さいノードはDOM木において検索語の近くにあるため、検索語に関する抽出するべき情報である可能性が高い。
本実施の形態では、これら二つの基準値を組み合わせた優先度を用いる。抽出結果のノードoの集合をOとし、o∈OのSVMの出力値をmo、IDの差をroとする。ただし、mo≧1の場合は、mo=1とする。rmax=maxo∈Ooとし、oの優先度=mo+(1−ro/rmax)、と定義する。このように定義した優先度を全ての抽出結果に対して求め、優先度の高い結果から順に表示する。なお、このように定義したrmaxの値は、抽出結果のノードの集合Oに依存するため、依存しない方がよい場合には他の値に変えてもよい。例えば、学習処理部での学習時に使用した教師データ(後述)におけるキーワードノードとターゲットノードのIDの差の最大値をrmaxとし、ro≧rmaxの場合はro=rmaxとするという方法が挙げられる。
次に、学習処理部150の各構成要素について説明する。
学習用検索語入力部151は、ユーザによって操作される入力装置110と学習処理部150とを接続するインターフェースとしての機能を有し、入力装置110から入力される学習用検索語を入力処理して学習処理部150が処理可能なデータ形式に変換する。変換された学習用検索語は、教師データを作成するためのものであり、記憶部160の学習用検索語データベース163へ格納されるとともに学習用ウェブページ取得部152へ渡される。
学習用ウェブページ取得部152は、ユーザによって入力された学習用検索語を使ってインターネット200を経由して一般の検索サイト300で検索を行い、学習用検索語に関するウェブページの集合を取得する。取得したウェブページは、教師データを作成するためのものであり、記憶部160の学習用ウェブページデータベース164へ格納されるとともに情報範囲入力部153へ渡される。
情報範囲入力部153は、学習用ウェブページ取得部152によって取得された各学習用ウェブページ中における、学習用検索語に関する情報の位置を指定し、教師データを作成する。例えば、DOM木の各テキストノードに対応する部分をクリックできるように変換したウェブページ上で、ユーザが学習用検索語に関する情報の位置を入力できるツールを用いることにより、ユーザが入力装置110を通して学習用検索語に関する情報の開始部分と終了部分を指定することができる。学習用検索語に関する情報の位置を指定されたウェブページは、HTMLパーサによってDOM木に変換され、指定された情報に対応するノードをターゲットノードとする教師データ(学習用検索語、DOM木、ターゲットノード)となる。このようにして得られた複数の教師データは、教師データ集合Dとしてまとめられ、記憶部160の教師データデータベース165へ格納されるとともにパターン集合学習データ作成部154へ渡される。
教師データは、(学習用検索語、DOM木、ターゲットノード)の3つ組のデータである。例えば、図2(B)のデータであれば、("Little Sapporo",T,ノード12)が教師データとなる。ターゲットノードは、情報範囲入力部153によって指定された、学習用検索語に関する特定情報を含むノードであるが、複数ある場合にはそれらのLCA(Least Common Ancestor:最も近い共通祖先)とする。ターゲットノードがないページでは、ターゲットノードをNULL(値なし)として教師データを作成する。
パターン集合学習データ作成部154は、作成された教師データ集合Dを構成する各々の教師データから、学習用検索語と学習用検索語に関する情報との間の位置関係のパターン木を抽出し、パターン集合学習データを作成する。作成されたパターン集合学習データは、抽出パターン生成部155へ渡される。
具体的には、ターゲットノードの先祖ノード各々に対してそのノードを基点とするキーワードパスを探索し、キーワードパスを見つけたら、そのキーワードパスとその先祖ノードの位置を起点とするターゲットパスとから成るパターン木をパターン木集合El,tに格納する。このとき、lは先祖ノード(根ノード)のタグ、tはターゲットノードのタグである。図5(A)および図5(B)は、図2(B)のデータによる教師データ("Little Sapporo",T,ノード12)から抽出されたパターン集合学習データである。この例では、E"html","#text"(図5(A))およびE"body","#text"(図5(B))に属するパターン木が1つずつ抽出される。このように、パターン集合学習データは、複数の集合からなるデータである。あるいは、ターゲットノードに一番近いキーワードノードを含むパターン木のみ使用するという方法もある。
抽出パターン生成部155は、パターン集合学習データ作成部154によって作成された各々の集合El,tから抽出規則に用いるパターンを生成し、それらを集めてパターン集合Pとする。パターン集合Pは、教師データの集合Dにおいて頻出するパターン(P,r)の集合である。生成されたパターン集合は、記憶部160のパターン集合データベース166に格納されるとともに情報分類器学習部156へ渡される。
具体的には、集合El,tごとに共通パターンを求める(図6の具体例を参照)。「共通の」ということは、データマイニングの分野の言葉では、「サポート1.0の」ということに相当するが、ここではサポートは、El,tに格納された各パターン木の抽出元のDOM木の数で計算するため、サポート1.0でも集合El,tに格納された全パターン木に出現しなくてもよい。ZakiのTreeMinerアルゴリズムのサポートのカウント法をこのように変えたものを実行することにより、抽出パターン生成部155の実現が可能である。また、キーワードパスとターゲットパスに分ければ、シークエンスマイニングのアルゴリズム(例えば、AgrawalとSrikantのAprioriAll等)を適用することもでき、より効率的に実現することができる。
図6は、抽出パターン生成部155により生成されるパターン(P,r)の例である。図6では、集合E"tr","#text"が3つのパターン木S11(図6(A))、S12(図6(B))、S2(図6(C))、から成っており、そのうちS11およびS12は同じDOM木から抽出されたものとする。抽出されたパターン木P(図6(D))は、S11には部分木として存在しないが、同じDOM木から抽出されたS12内に存在するため、パターン木Pは共通パターンとなる。キーワードノードとターゲットノードの間の距離の制限rは、このパターンが出現する2つの木S12、S2における二つのノード間の距離の最大値7(=16−9)とする。最終的に、集合E"tr","#text"の共通パターンとして(P,7)が得られる。同様の処理を全ての集合El,tに対して行い、集合El,tごとの共通パターンを求め、それらを集めて「パターン集合」とする。
情報分類器学習部156は、抽出パターン生成部155で求まったパターン集合Pおよび教師データ集合Dを使って、検索語に関する情報を分類する情報分類器を求める。パターン集合Pを用いて教師データ集合Dから情報を自動的に抽出すると、抽出された情報には、抽出するべき情報だけでなく、抽出するべきではない情報も含まれる。しかし、全ての情報について抽出するべきかどうかはわかっているので(情報範囲入力部で指定している)、これら抽出するべき情報および抽出するべきでない情報を教師データとすることによって、情報分類器を学習させることができる。求められた情報分類器は、記憶部160の情報分類器データベース167に格納される。
具体的には、まず、パターン集合Pを用いて情報候補抽出部143と同じ手段で教師データ集合から全ての情報候補を抽出する。このように抽出された情報候補のうち、抽出するべきである検索語に関する特定情報(ターゲットノード)が含まれていない教師データから抽出された情報は、全て「ターゲット情報以外(−1)」とする。また、ターゲットノードが含まれている教師データから抽出された情報のうち、抽出するべき情報の前に出現した(ターゲットノードのIDより小さいIDのノードに対応する)ものは全て「ターゲット情報以外(−1)」とし、抽出するべき情報は「ターゲット情報(+1)」とし、その他のものは捨てる。このようにして得られた情報分類器学習データを既存の情報分類器学習アルゴリズムに与えることで、情報分類器を求める。
次いで、上記構成を有する情報抽出装置100の動作について、図7〜図9に示すフローチャートを用いて説明する。全体の流れとしては、教師データを作成し、パターン集合と情報分類器を生成する段階(学習処理部150:図7、図8)と、検索語を入力し、その検索語に関するウェブページからその検索語に関する情報を抽出する段階(検索処理部140:図9)と、の二つに大きく分けられる。
まず、学習処理部150での動作について、図7に示すフローチャートを用いて説明する。
まず、ステップS1000では、ユーザが学習用検索語入力部151に教師データ作成用の学習用検索語を入力する。学習用検索語入力部151は、入力された学習用検索語を学習処理部150が処理可能なデータ形式に変換する。変換された学習用検索語は、学習用検索語データベース163に格納されるとともに学習用ウェブページ取得部152へ渡される。
ステップS1100では、学習用ウェブページ取得部152が、ステップS1000で変換された学習用検索語を使って、インターネット200を経由して一般の検索サイト300で検索を行い、学習用検索語に関するウェブページの集合を取得する。取得されたウェブページの集合は、学習用ウェブページデータベース164に格納されるとともに情報範囲入力部153へ渡される。
ステップS1200では、情報範囲入力部153が、ステップS1100で取得された各学習用ウェブページ中における、学習用検索語に関する情報の位置を指定し、複数の教師データ(検索語、DOM木、ターゲットノード)を作成する。作成された複数の教師データから成る教師データ集合Dは、教師データデータベース165に格納されるとともにパターン集合学習データ作成部154へ渡される。
ステップS1300では、パターン集合学習データ作成部154が、ステップS1200で作成された教師データ各々から、キーワードノードとターゲットノードの位置関係を示すパターン木を抽出し、パターン集合学習データを作成する。作成されたパターン集合学習データは、抽出パターン生成部155へ渡される。
ステップS1400では、抽出パターン生成部155が、ステップS1300で得られたパターン木の共通パターン(P,r)を求め、パターン集合Pを生成する。
ステップS1500では、必要に応じて、抽出パターン生成部155が、後述するPSアルゴリズムを用いて、パターン集合Pが教師データDに対して適合率の高いパターン(P,r)だけから成るように適合率の低いパターンを別のパターンと置換する。生成された新しいパターン集合Pは、パターン集合データベース166に格納されるとともに情報分類器学習部156へ渡される。
なお、このPSアルゴリズム処理はオプションであり、この処理を行わなくてもよい。PSアルゴリズム処理を用いた方がよいかどうかは、後述する適合率と再現率のトレードオフの問題で、どちらを重視するかによる。PSアルゴリズム処理を用いない場合には、ステップS1400で生成されたパターン集合Pがそのままパターン集合データベース166に格納されるとともに情報分類器学習部156へ渡される。
ステップS1600では、情報分類器学習部156が、パターン集合Pを用いて教師データ集合Dから情報を抽出し、そのデータに基づいて情報分類器学習データを生成する。情報分類器学習部156は、求まった情報分類器学習データを既存の情報分類器学習アルゴリズムに与え、情報分類器を求める。求まった情報分類器は、情報分類器データベース167に格納される。
以上のように、学習処理部150では、学習用検索語を入力し、学習用検索語に関する特定の情報の範囲を指定すると、パターン集合Pおよび情報分類器が自動的に生成される。ここで生成されたパターン集合Pおよび情報分類器は、この後説明する検索処理部140での検索処理に使用される。
ここで、ステップS1500でオプションとして用いられるPSアルゴリズムについて説明する。
あるパターン(P,r)の教師データ集合Dに対する適合率を、パターンにマッチしたノード総数に占める正解ノード数、と定義すると、ステップS1400で生成されたパターン集合Pに含まれるパターンには、集合Dに対して適合率の高いパターンと低いパターンがあることがわかる。
本実施の形態では、この抽出結果全体の適合率の向上を目的として、パターン集合Pを教師データ集合Dに対して適合率の高いパターンだけから構成する方法(以下「PSアルゴリズム」という)を必要に応じて用いる。PSアルゴリズムは、閾値α(0≦α≦1)を設定し、あるパターン(P,r)の教師データ集合Dに対する適合率がα未満である時、そのパターンをより特殊なパターンと置き換える方法である。
具体的には、教師データ集合Dに対して最も適合率が低く、かつ適合率がα未満であるパターン(P*,r*)を、LCAおよびターゲットノードのタグが同じパターンの中でパターン(P*,r*)の次にサポートが高いパターンと置換する。この操作を適合率がα以下のパターンがなくなるまで繰り返す。パターンのサポートとは、教師データ集合Dの中で、あるパターン(P,r)がターゲットノードを候補としてあげることができる教師データの数である。
以下、図8のフローチャートを用いて動作を説明する。ここで、飽和パターンとは、パターン(P,r)のパターン木Pにおいて、パターン木Pを構成するノードを一つでも加えるとサポートが小さくなるようなパターンのことをいう。また、αを適合率の閾値とする。なお、ステップS1510およびステップS1520は、ステップS1400内で処理できる作業であるが、PSアルゴリズムの動作を説明する便宜上、ステップS1500内に含めて説明する。
まず、ステップS1510では、パターンリストを生成する。具体的には、抽出パターン生成部155が、ステップS1300で作成された集合El,tごとに飽和パターンを求め、予備パターン集合Pl,tにそれぞれ格納する。このとき、lは、パターンの根ノードのタグ、tはターゲットノードのタグである。そして、抽出パターン生成部155は、集合Pl,tに含まれるパターンをサポートの高い順に格納したリストQl,tを生成する。あまりにもサポートの低い飽和パターンは、効果が小さいため、しきい値βを設定して、サポートがβ以上のパターンのみを求めてもよい。これは、計算時間削減の効果もある。
ステップS1520では、パターン集合を初期化する。具体的には、抽出パターン生成部155が、(l,t)の全ての組み合わせにおいて、各リストQl,tについて先頭の要素(一番サポートの高いパターン)を選び出し、パターン集合Pを生成する。
ステップS1530では、抽出パターン生成部155が、パターン集合Pを用いた情報抽出装置(ラッパー)を構築する。
ステップS1540では、各パターンの適合率を算出する。具体的には、抽出パターン生成部155が、教師データ集合Dに対して、ステップS1530で構築したラッパーを用いて情報抽出を行い、集合Pを構成する各パターン(P,r)の集合Dに対する適合率を求める。
ステップS1550では、最も適合率の低いパターンを選択する。具体的には、抽出パターン生成部155が、パターン集合Pに含まれるパターンのうち、最も適合率の低いパターンを求める。
ステップS1560では、抽出パターン生成部155が、選択されたパターンの適合率が閾値α未満かどうかを判定する。この時、適合率がα以上だった場合は、PSアルゴリズムは終了する。適合率がα未満の場合はステップS1570に進む。
ステップS1570では、抽出パターン生成部155が、ステップS1550で選択されたパターンをそのパターンが格納されていたリストQl,tから削除し、残った2番目以降の各パターンの順位を一つ上げる。削除が終わったら、ステップS1520へ戻り、全ての適合率がα以上になるまで、ステップS1520からステップS1570までの各ステップを繰り返す。
以上の処理により、パターン集合Pは、適合率が閾値α以上となるパターンのみから構成されるようになる。しかしながら、この処理では、サポートが高いが適合率が低いパターンを、サポートが低いが適合率が高いパターンに置き換えるので、再現率が低くなる。上述したように、PSアルゴリズム処理を用いた方がよいかどうかは、適合率と再現率のトレードオフの問題で、どちらを重視するかによる(実施例1参照)。
次いで、検索処理部140での動作について、図9に示すフローチャートを用いて説明する。
まず、ステップS2000では、ユーザが検索語入力部141に検索語を入力する。検索語入力部141は、入力された検索語を検索処理部140が処理可能なデータ形式に変換する。変換された検索語は、検索語データベース161に格納されるとともにウェブページ取得部142へ渡される。
ステップS2100では、ウェブページ取得部142が、検索語に関するウェブページの集合を取得する。本実施の形態では、ウェブページ取得部142が、インターネット200を経由して一般の検索サイト300で検索を行い、ウェブページを取得する。取得されたウェブページの集合は、ウェブページデータベース162に格納されるとともに情報候補抽出部143へ渡される。
ステップS2200では、情報候補抽出部143が、ウェブページ取得部142で取得されたウェブページの集合に対し、学習処理部150で生成されたパターン集合Pを構成する各パターンとパターンマッチングを行い、情報候補を抽出する。抽出された情報候補は、情報候補分類部144へ渡される。
ステップS2300では、情報候補分類部144が、学習処理部150によって生成された情報分類器に、情報候補を一つずつかけ、それぞれを「ターゲット情報(+1)」と「ターゲット情報以外(−1)」にラベル付けする。ラベル付けされた情報候補は、情報選択部145へ渡される。
ステップS2400では、情報選択部145が、情報候補からラベルに基づいて抽出するべき情報と思われる情報を選択する。選択された情報は、情報出力部146へ渡される。
ステップS2500では、情報出力部146が、選択された情報を出力装置130が表示できるようなデータ形式に変換する。また、ここで、優先度に基づいて優先度の高い順に表示するようにしてもよい。変換されたデータは出力装置130へ渡される。
本実施の形態によれば、半構造化情報のDOM木のパターンマッチングにおいて、親子関係を拡張した先祖と子孫の関係でも一致するとみなすようにすることによってサイト間の構造の違いを吸収し、不特定サイトに対応することができる。
また、本実施の形態によれば、パターンマッチングの後に、情報分類器を用いて抽出された情報候補を「ターゲット情報」と「ターゲット情報以外」に分類し、目的とする情報のみを抽出することができる。上記のようにパターンマッチングの条件を緩くしてしまうと、より多くの情報候補を抽出することができるが、目的とする情報以外とも数多くマッチしてしまう。しかし、この情報分類器を用いることによって、抽出される情報に対する目的とする情報の割合を高めることができる。
さらに、本実施の形態によれば、抽出規則に相当する「パターン集合の作成」と「情報分類器の学習」を、少ない教師データから自動的に行うことができる。特許文献1の方法では、教師データの作成のほかに評価表現辞書を人手で作成しなければならないが、本実施の形態によれば、このような手間がかかることはない。
このように、本実施の形態によれば、不特定のウェブサイトのページからある検索語に関する特定の情報をブロック単位で抽出することができ、また、教師データから完全に自動的に抽出規則を学習することができる。
なお、本実施の形態における情報抽出装置は、実施例のように検索語に関する評判情報を抽出する装置として利用できる。しかし、何らかの分類器を用いて「ターゲット情報」と「ターゲット情報以外」に分類できれば、評判ではなくても本手法を用いてラッパーを構築することが可能である。例えば、Eメールアドレスや電話番号、住所などが考えられる。
さらに、本実施の形態では、半構造化情報としてHTMLで記述されたウェブページを例にして説明したが、これに限定されることはなく、XMLなどの他の半構造化情報についても本発明を適用することができる。
以下では、本実施の形態に係る情報抽出装置の動作の具体例を実施例として示す。
本発明の有効性を検証するために、ラーメン屋の評判情報を抽出することを想定して以下の実験を行った。なお、本発明に係る情報抽出装置、情報抽出方法、および情報抽出プログラムは、便宜上いずれも「ラッパー」という。
使用するデータは、ラーメン屋に関する情報が記述されたHTMLテキストである。地方タウン情報誌に記載されていた「人気ラーメン店ランキングトップ100」に含まれる店について、検索サイトを用いて「店の名前」と「電話番号」でAND検索した。そして、検索結果のページ数が15以上であるとき、そのページを実験データとし、これをランキング上位から10店分収集した(店番号1から店番号10の10店)。データは合計301ページ、このうち評判が書かれていたのは189ページであった。ラッパーに入力する検索語はラーメン屋の名前であり、抽出する情報はその店の評判情報である。実験では、データを店ごとに分割し、クロスバリデーションにより適合率と再現率を求めた。
テキスト分類法に利用した索引語は、名詞、動詞、形容詞、副詞の四つである。また、索引語の切り出しには、形態素解析エンジン「茶筌」(http://chasen.aist-nara.ac.jp/hiki/ChaSen)を用いた。索引語ベクトルの要素の重みには索引語の頻度を用い、ベクトルの正規化にはユークリッドノルムを用いた。分類器のSVMとして「SVMTorchII」(http://www.idiap.ch/bengio/projects/SVMTorch.html)を用い、カーネルとして三次元の多項式カーネルK(x,y)=(xy+1)を用いた。
PSアルゴリズム処理では、最小サポートを0.1としたときの飽和パターンを用い、閾値α=0.9でラッパーを構築した。
実験結果を図10に示す。テストデータに対する適合率と再現率の列で、括弧のついていない値は、教師データ(検索語、DOM木、ターゲットノード)でターゲットノードと指定したノードの情報だけを正解として求めた。括弧内は、上記の精度の求め方では不正解とされた情報に関し、以下に示す基準Aのいずれかを満たしていれば正解とした値である。
「基準A」
1.抽出すべき評判情報の一部である。すなわち、ターゲットノードの子孫のノードである場合。
2.抽出すべき評判情報を含み、検索語に関する情報以外を含まない。すなわち、ターゲットノードの先祖ノードであり、検索語に関係しない余計な情報を含まない場合。
3.抽出すべき評判情報を含んでいないが、検索語に関する情報であり、評判情報とみることもできる。すなわち、ターゲットノードとはDOM木上で先祖・子孫関係ではないノードであるが、内容を調べると、検索語に関する評判情報とみることができる場合。
基準Aで考えると、PSアルゴリズムなしでも適合率約80%、再現率約55%であり、実用的に使える精度であるといえる。PSアルゴリズムを使うと適合率が90%以上になるが、再現率は50%以下に低下する。したがって、誤った情報が表示されることを嫌う場合には、PSアルゴリズムを使用し、少しでも多くの情報を得たい場合にはPSアルゴリズムを使わない方がよいことがわかる。
図11の表は、PSアルゴリズム(α=0.9)を用いたときの出力結果に優先順位を付けた場合の不正解の順位に関する結果を示す。この表においては、基準Aを満たさないものは不正解とした。ここでは、優先度として、SVMの出力値moおよびノードのIDの差(1−ro/rmax)を組み合わせて用いる方法(mo+(1−ro/rmax))の他に、moまたは(1−ro/rmax)のみ用いた場合の結果も示す。2つの値を組み合わせたものを優先度とした場合、不正解は全体的に下位にランク付けられており、上位から数えて不正解が含まれない割合の上限は、抽出結果全体の60%であった。優先度としてmoのみ利用したときのこの割合は約30%であり、(1−ro/rmax)のみ利用したときは不正解が一位となることがあった。したがって、これらの値を組み合わせることで、優先度の信頼性が増したことがわかる。特に店番号6番、10番の結果では、不正解のの情報が最下位となっており、二つの値を組み合わせた優先度は有効に働いている。
ラッパーの出力結果の例を図12に示す。これは、PSアルゴリズム(α=0.9)を用いて、店番号10番についての評判情報を抽出した結果であり、優先順位の上位から順に記述した。○は正解、△は基準Aを満たすもの、×は不正解を示している。図12では、店名および地名をアステリスクで置換したが、実際の出力結果では完全に表示されている。本発明に係る情報抽出装置および情報抽出方法によって、ある検索語(この場合、ラーメン屋の店名)に関する評判情報が、不特定のウェブサイトのページからブロック単位で抽出されていることがわかる。
本発明に係る情報抽出装置および情報抽出方法は、不特定のウェブサイトのページからある検索語に関する特定の情報をブロック単位で抽出することができ、また、教師データから完全に自動的に抽出規則を学習することができる、情報抽出装置および情報抽出方法として有用である。
本発明の一実施の形態に係る情報抽出装置の構成を示すブロック図 本実施の形態におけるHTMLパーサによるウェブページのDOM木への変換を示す図であり、(A)は、変換前のHTMLテキストを示す図、(B)は、変換後のDOM木を示す図 本実施の形態におけるパターンの一例を示す図であり、(A)は、パターン(P,5)およびパターン木Pを示す図、(B)は、パターン木Pにおけるキーワードパスを示す図、(C)は、パターン木Pにおけるターゲットパスを示す図 本実施の形態におけるパターンマッチングを示す図であり、(A)は、キーワードマッチングを示す図、(B)は、キーワードパスのマッチングを示す図、(C)は、ターゲットパスのマッチングを示す図、(D)は、抽出された情報候補を示す図 本実施の形態におけるパターン集合学習データの一例を示す図であり、(A)は、E"html","#text"に属するパターン集合学習データの一例を示す図、(B)は、E"body","#text"に属するパターン集合学習データの一例を示す図 本実施の形態におけるパターン生成の一例を示す図であり、(A)および(B)は、同じDOM木から抽出された2つの木をそれぞれ示す図、(C)は、(A)および(B)とは別のDOM木から抽出された木を示す図、(D)は、2つのDOM木から抽出された共通パターンを示す図 本実施の形態における学習処理部の動作を示すフローチャート 本実施の形態におけるPSアルゴリズムの動作を示すフローチャート 本実施の形態における検索処理部の動作を示すフローチャート 実施例1の実験結果を示す表 PSアルゴリズムを用いたときのラッパーの出力に優先順位を付けた結果を示す表 ラッパーの出力結果の例を示す図
符号の説明
100 情報抽出装置
110 入力装置
120 コンピュータ本体
130 出力装置
140 検索処理部
141 検索語入力部
142 ウェブページ取得部
143 情報候補抽出部
144 情報候補分類部
145 情報選択部
146 情報出力部
150 学習処理部
151 学習用検索語入力部
152 学習用ウェブページ取得部
153 情報範囲入力部
154 パターン集合学習データ作成部
155 抽出パターン生成部
156 情報分類器学習部
160 記憶部
161 検索語データベース
162 ウェブページデータベース
163 学習用検索語データベース
164 学習用ウェブページデータベース
165 教師データデータベース
166 パターン集合データベース
167 情報分類器データベース
200 インターネット
300 検索サイト

Claims (11)

  1. 指示された検索語に関する情報をウェブページの集合から抽出する情報抽出装置であって、
    前記ウェブページの半構造化情報における前記検索語と前記検索語に関する情報との間の構造的位置関係を表すパターンから成るパターン集合に基づいて、前記ウェブページの集合から前記検索語に関する情報候補をブロック単位で抽出する情報候補抽出手段と、
    前記情報候補抽出手段によって抽出されたブロック単位の前記情報候補を情報分類技術によって評価し、前記ブロック単位の情報候補を抽出するべき情報と抽出するべき情報以外にそれぞれ分類する情報分類手段と、
    を有する情報抽出装置。
  2. 前記情報候補抽出手段は、
    前記各ウェブページの半構造化情報をDOM木に変換する手段を有し、
    前記DOM木を前記パターン集合の各パターンとパターンマッチングを行って前記情報候補のノードを特定することにより、情報候補を抽出する、
    請求項1記載の情報抽出装置。
  3. 前記情報候補抽出手段は、
    前記パターンマッチングの際に、二つのノードが隣接する場合とその間に他ノードが介在する場合との双方を同一の構造的位置関係とする、
    請求項2記載の情報抽出装置。
  4. 前記情報候補のうち、前記情報分類手段によって抽出するべき情報と分類された情報を選択する情報選択手段と、
    前記情報選択手段によって選択された情報に、
    選択された情報に対する情報分類技術による評価値と、半構造化情報における前記検索語と前記検索語に関する情報との間の構造的位置関係における距離と、を合わせた尺度に基づいて優先度を付与し、
    前記選択された情報を前記優先度に基づいて表示する情報出力手段と、
    をさらに有する請求項1記載の情報抽出装置。
  5. 教師データ集合を構成する各教師データから、半構造化情報における前記検索語と前記検索語に関する情報との間の構造的位置関係を特定し、
    前記構造的位置関係を表すパターン木から成るパターン集合学習データを作成する、
    パターン集合学習データ作成手段と、
    前記パターン集合学習データを構成する複数の前記パターン木における頻出のパターンを複数求め、
    求めた複数の前記頻出のパターンから成る前記パターン集合を生成する、
    抽出パターン生成手段と、
    をさらに有する請求項1記載の情報抽出装置。
  6. 教師データ集合を構成する各教師データから、半構造化情報における前記検索語と前記検索語に関する情報との間の構造的位置関係を特定し、前記構造的位置関係を表すパターン木を作成し、
    作成したそれぞれの前記パターン木を根ノードのタグおよび前記検索語に関する情報を含むノードのタグの両方が共通するパターン木ごとに各々分類したパターン木集合を有するパターン集合学習データを作成する、
    パターン集合学習データ作成手段と、
    前記パターン集合学習データの前記パターン木集合のそれぞれにおいて飽和パターンを求め、求めたパターンを前記パターン木集合ごとに各々分類した予備パターン集合を生成し、
    前記予備パターン集合それぞれから、サポートの最も高いパターンを選び出し、選び出された複数の前記パターンを格納したパターン集合を生成する、
    抽出パターン生成手段と、
    をさらに有する請求項1記載の情報抽出装置。
  7. 教師データ集合を構成する各教師データから、半構造化情報における前記検索語と前記検索語に関する情報との間の構造的位置関係を特定し、
    前記構造的位置関係を表すパターン木から成るパターン集合学習データを作成する、
    パターン集合学習データ作成手段と、
    前記パターン集合学習データを構成する複数の前記パターン木における頻出のパターンを複数求め、
    求めた複数の前記頻出のパターンの前記教師データ集合に対する適合度をそれぞれ算出し、
    前記教師データ集合に対する適合度が所定の閾値より高いパターンだけで構成される前記パターン集合を生成する、
    抽出パターン生成手段と、
    をさらに有する請求項1記載の情報抽出装置。
  8. 教師データ集合を構成する各教師データから、半構造化情報における前記検索語と前記検索語に関する情報との間の構造的位置関係を特定し、前記構造的位置関係を表すパターン木を作成し、
    作成したそれぞれの前記パターン木を根ノードのタグおよび前記検索語に関する情報を含むノードのタグの両方が共通するパターン木ごとに各々分類したパターン木集合を有するパターン集合学習データを作成する、
    パターン集合学習データ作成手段と、
    前記パターン集合学習データの前記パターン木集合のそれぞれにおいて飽和パターンを求め、得られたパターンを前記パターン木集合ごとに各々分類した予備パターン集合を生成し、
    前記予備パターン集合それぞれから、サポートの最も高いパターンを選び出し、選び出された複数の前記パターンを格納したパターン集合を生成し、
    前記パターン集合を構成する前記パターンの前記教師データに対する適応度をそれぞれ求め、最も適応度が低い前記パターンの適応度が所定の閾値より低かった場合、前記最も適応度が低いパターンが格納されていた前記予備パターン集合に格納されている前記パターンのうち、次にサポートの高い前記パターンを前記パターン集合の前記最も適応度が低いパターンと置換する、という処理を、前記パターン集合に格納された全ての前記パターンの前記教師データに対する適応度が所定の閾値より高くなるまで繰り返し、
    前記教師データ集合に対して適合率が所定の閾値より高いパターンだけで構成されるパターン集合を生成する、
    抽出パターン生成手段と、
    をさらに有する請求項1記載の情報抽出装置。
  9. 前記抽出パターン生成手段で生成された前記パターンと前記教師データとの間でパターンマッチングを行い、マッチした情報が抽出されるべき情報であったかどうかを学習することによって、前記情報分類器を求める情報分類器学習手段、
    をさらに有する請求項5から請求項8のいずれかに記載の情報抽出装置。
  10. 指示された検索語に関する情報をウェブページの集合から抽出する情報抽出方法であって、
    前記ウェブページの半構造化情報における前記検索語と前記検索語に関する情報との間の構造的位置関係を表すパターンから成るパターン集合に基づいて、前記ウェブページの集合から前記検索語に関する情報候補をブロック単位で抽出する情報候補抽出ステップと、
    前記情報候補抽出ステップで抽出されたブロック単位の前記情報候補を情報分類技術によって評価し、前記ブロック単位の情報候補を抽出するべき情報と抽出するべき情報以外にそれぞれ分類する情報分類ステップと、
    を有する情報抽出方法。
  11. コンピュータに、
    ウェブページの半構造化情報における検索語と前記検索語に関する情報との間の構造的位置関係を表すパターンから成るパターン集合に基づいて、前記ウェブページの集合から前記検索語に関する情報候補をブロック単位で抽出させ、
    抽出されたブロック単位の前記情報候補を情報分類技術によって評価し、前記ブロック単位の情報候補を抽出するべき情報と抽出するべき情報以外にそれぞれ分類させるプログラム。
JP2005230686A 2005-08-09 2005-08-09 情報抽出装置および情報抽出方法 Pending JP2007047974A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005230686A JP2007047974A (ja) 2005-08-09 2005-08-09 情報抽出装置および情報抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005230686A JP2007047974A (ja) 2005-08-09 2005-08-09 情報抽出装置および情報抽出方法

Publications (1)

Publication Number Publication Date
JP2007047974A true JP2007047974A (ja) 2007-02-22

Family

ID=37850758

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005230686A Pending JP2007047974A (ja) 2005-08-09 2005-08-09 情報抽出装置および情報抽出方法

Country Status (1)

Country Link
JP (1) JP2007047974A (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008120360A1 (ja) * 2007-03-29 2008-10-09 Fujitsu Limited 多言語検索プログラム
JP2009244961A (ja) * 2008-03-28 2009-10-22 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
JP2012014412A (ja) * 2010-06-30 2012-01-19 Yahoo Japan Corp データ抽出装置及び方法
WO2014184940A1 (ja) * 2013-05-17 2014-11-20 株式会社日立製作所 データ抽出方法、データ抽出装置及びプログラム
WO2015152647A1 (en) * 2014-04-02 2015-10-08 Samsung Electronics Co., Ltd. Method and system for content searching
KR20150114895A (ko) * 2014-04-02 2015-10-13 삼성전자주식회사 컨텐츠 검색 방법 및 컨텐츠 검색 시스템
WO2018080278A1 (ko) * 2016-10-31 2018-05-03 주식회사 뉴스젤리 데이터 집단을 파싱 가능한 형태로 변환하여 희망 데이터 영역을 추출하는 방법
KR20220093637A (ko) * 2020-12-28 2022-07-05 주식회사 에스투더블유 웹 페이지에서 자동으로 사용자 식별 객체 획득하는 방법
WO2024040524A1 (zh) * 2022-08-25 2024-02-29 西门子股份公司 数据提取方法、装置、电子设备和存储介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008120360A1 (ja) * 2007-03-29 2008-10-09 Fujitsu Limited 多言語検索プログラム
JP2009244961A (ja) * 2008-03-28 2009-10-22 Fuji Xerox Co Ltd 情報処理装置及び情報処理プログラム
JP2012014412A (ja) * 2010-06-30 2012-01-19 Yahoo Japan Corp データ抽出装置及び方法
WO2014184940A1 (ja) * 2013-05-17 2014-11-20 株式会社日立製作所 データ抽出方法、データ抽出装置及びプログラム
WO2015152647A1 (en) * 2014-04-02 2015-10-08 Samsung Electronics Co., Ltd. Method and system for content searching
KR20150114895A (ko) * 2014-04-02 2015-10-13 삼성전자주식회사 컨텐츠 검색 방법 및 컨텐츠 검색 시스템
KR102365434B1 (ko) * 2014-04-02 2022-02-21 삼성전자주식회사 컨텐츠 검색 방법 및 컨텐츠 검색 시스템
WO2018080278A1 (ko) * 2016-10-31 2018-05-03 주식회사 뉴스젤리 데이터 집단을 파싱 가능한 형태로 변환하여 희망 데이터 영역을 추출하는 방법
KR20220093637A (ko) * 2020-12-28 2022-07-05 주식회사 에스투더블유 웹 페이지에서 자동으로 사용자 식별 객체 획득하는 방법
KR102570477B1 (ko) 2020-12-28 2023-09-04 주식회사 에스투더블유 웹 페이지에서 자동으로 사용자 식별 객체 획득하는 방법
WO2024040524A1 (zh) * 2022-08-25 2024-02-29 西门子股份公司 数据提取方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN109492077B (zh) 基于知识图谱的石化领域问答方法及系统
CN110399457B (zh) 一种智能问答方法和系统
Zubrinic et al. The automatic creation of concept maps from documents written using morphologically rich languages
CN111190900B (zh) 一种云计算模式下json数据可视化优化方法
JP2007047974A (ja) 情報抽出装置および情報抽出方法
JP5710581B2 (ja) 質問応答装置、方法、及びプログラム
JP2004110161A (ja) テキスト文比較装置
JP2005526317A (ja) ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム
WO2009123288A1 (ja) 単語分類システム、方法およびプログラム
JP2004110200A (ja) テキスト文比較装置
JP7281905B2 (ja) 文書評価装置、文書評価方法及びプログラム
JP2007094855A (ja) 文書処理装置及び文書処理方法
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
Solorio et al. A language independent method for question classification
JP2005301856A (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
JPH0484271A (ja) 文書内情報検索装置
JP4931114B2 (ja) データ表示装置、データ表示方法及びデータ表示プログラム
CN112711666B (zh) 期货标签抽取方法及装置
Derici et al. A closed-domain question answering framework using reliable resources to assist students
JP2013016036A (ja) 文書部品生成方法及び計算機システム
JPH1196177A (ja) 用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体
JP3617096B2 (ja) 関係表現抽出装置および関係表現検索装置、関係表現抽出方法、関係表現検索方法
JP2008204133A (ja) 回答検索装置及びコンピュータプログラム
Zhang et al. Boilerplate detection via semantic classification of TextBlocks
JP5506482B2 (ja) 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム