JP4937709B2 - 構造化文書生成方法及び装置及びプログラム - Google Patents

構造化文書生成方法及び装置及びプログラム Download PDF

Info

Publication number
JP4937709B2
JP4937709B2 JP2006316038A JP2006316038A JP4937709B2 JP 4937709 B2 JP4937709 B2 JP 4937709B2 JP 2006316038 A JP2006316038 A JP 2006316038A JP 2006316038 A JP2006316038 A JP 2006316038A JP 4937709 B2 JP4937709 B2 JP 4937709B2
Authority
JP
Japan
Prior art keywords
document
wrapper
attribute
character string
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006316038A
Other languages
English (en)
Other versions
JP2008129943A (ja
Inventor
幸生 植松
俊郎 内山
良治 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006316038A priority Critical patent/JP4937709B2/ja
Publication of JP2008129943A publication Critical patent/JP2008129943A/ja
Application granted granted Critical
Publication of JP4937709B2 publication Critical patent/JP4937709B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、構造化文書生成方法及び装置及びプログラムに係り、特に、Web上に散在する専門分野の文書を検索するために、文書を自動的に構造化するための構造化文書生成方法及び装置及びプログラムに関する。
専門分野とは、例えば、料理のレシピやパーソナルコンピュータのトラブルシューティング等のような分野を指す。構造化とはその専門分野において抽出したい属性を文字列に付与することを指す。専門分野の検索では、通常の文字列検索だけでなく、例えば、レシピを対象とした検索の場合、料理の材料を検索する際に、その材料の量で絞り込む検索をすることがある。この材料や量の情報を抽出することを構造化と呼ぶ。この構造化にはいくつかの手法が存在するが、ここでは、HTML(Hyper text markup language)文書やML(mailing list)文書などの半構造化文書を対象とし、その文書のタグに基づいて抽出する。このタグに基づいて抽出する抽出器のことをWrapperと呼ぶ。本発明はこうしたWeb上にある専門分野の文書から材料名や量を半自動的に抽出する情報抽出(特に、Wrapperに関する)分野に属する。
半構造化された文書から構造化された情報を抽出する技術として以下のようなものがある。
まず、情報を抽出する文書集合、その文書集合の中で抽出したい文字列、及びその文字列が属する属性、を入力として、Webページからタグを目印に文字列を抽出し、情報の抽出を行う方法がある(例えば、特許文献1参照)。例えば、"<tr><td>で囲まれた¥で始まる単語は価格である"等である。この手法は、同じようなタグ構造で記述されるWebページ群には適用できるが、異なる構造で記述されるWebページ群に適用する場合は、あるページの中のどの文字列が抽出したいかを特定する必要があるため手間がかかる。
この抽出するためのルールを半自動的に生成する従来技術として、シードと呼ばれる文字列群、その文字列群が属する属性情報、及び文書集合を入力とし、入力された文字列が文書集合内で出現するパタンを学習し、そのパタンに当てはまる文字列を抽出することでシードには登録されていない新しい文字列を抽出することができる(例えば、非特許文献1参照)。この手法はシードとしていくつかの文字列を入力する必要があるものの、その文字列が文書集合内のどこに出現しているのかを特定する必要がないため、前述の特許文献1の技術よりも手間がかからないというメリットがある。
特許第316026号公報「半構造化文書情報統合検索装置および半構造化文書情報抽出装置、その方法、ならびにそのプログラムを格納する記憶媒体」 E. Agichtein and L. Gravano. Snowball: Extracting relations from large plain-text collections. Proceedings of ACM DL2000, pages 85-94, 2000
しかしながら、上記の非特許文献1の技術では、抽出される文字列が同表記される場合は良いが、異なる表記をする文字列を抽出したい場合は大量のシードを必要としてしまう。例えば、映画のタイトルのように記述形式がある程度限られていて、文書集合内に頻出する場合は、上記の非特許文献1の方法は有効であるが、料理レシピのタイトルのように異表記される文字列や、料理レシピの手順等のように同表記で記述されない情報を抽出することは困難であるという問題がある。
また、文書集合を入力とした際に、どのWebページから抽出を行うのかを特定できないという課題がある。例えば、レシピサイト全体を入力とした場合、レシピが記述されているページと記述されていないページを同様に扱ってしまうと、Wrapperの一般化に失敗してしまう恐れがある。Wrapperの一般化とは、あるページで生成されたWrapperから様々なページに適用可能なWrapperを生成する過程を指す。
本発明は、上記の点に鑑みなされたもので、表記揺れなどが頻出するような抽出対象においてもWrapperを生成することを可能とし、また、どのページから情報を抽出するかを入力せずに抽出することが可能な構造化文書生成方法及び装置及びプログラムを提供することを目的とする。
図1は、本発明の原理を説明するための図である。
本発明(請求項1)は、情報を構造化する構造化文書生成方法であって、
情報入力手段が、属性と該属性が取った実際の値からなるサンプルデータ、文書集合、抽出したい情報を定義した属性データを受け付ける情報入力ステップ(ステップ1)と、
分類器生成手段が、文書集合の表記ゆれが起こりやすい属性について、サンプルデータの属性に対応する実際の値である文字列集合から、該文字列を構成する形態素の組み合わせでできる部分文字列の集合を、該属性が取り得る文字列(抽出すべき語)であると判定する分類器を生成する分類器生成ステップと、
文書分割手段が、文書集合の各文書を文書中のタグによりトークンに分割する文書分割ステップと、
文書分類手段が、トークンがサンプルデータ中に存在すれば対応する属性名のタグに変換し、また分類器により取り得る文字列(抽出すべき語)であると判定されれば対応する属性名に変換する文書分類ステップ(ステップ2)と、
特殊Wrapper生成手段が、属性名のタグから左右にn個ずつを抜き出して、抽出すべき語と判定された文字列のみを抽出するためのWrapperを生成する特殊Wrapper生成ステップ(ステップ3)と、
クラスタ生成手段が、特殊Wrapper生成ステップ(ステップ3)で生成されたWrapper間の類似度に基づいて、類似したWrapperを含む意味で類似する文書群をクラスタとして取り出すクラスタ生成ステップ(ステップ4)と、
一般化手段が、クラスタ生成ステップ(ステップ4)で生成されたクラスタ毎に、クラスタ内の文書群内で出現頻度が少ないWrapperを削除し、残りのWrapper集合を一つあるいはなるべく少ない数のWrapperで代替するという一般化を行い、記憶手段に格納する一般化ステップ(ステップ5)と、を行う。
図2は、本発明の原理構成図である。
本発明(請求項)は、情報を構造化する構造化文書生成装置であって、
属性と該属性が取った実際の値からなるサンプルデータ、文書集合、抽出したい情報を定義した属性データを受け付ける情報入力手段140と、
文書集合の表記ゆれが起こりやすい属性について、サンプルデータの属性に対応する実際の値である文字列集合から、該文字列を構成する形態素の組み合わせでできる部分文字列の集合を、該属性が取り得る文字列(抽出すべき語)であると判定する分類器を生成する分類器生成手段と、
文書集合の各文書を文書中のタグによりトークンに分割する文書分割手段と、
トークンがサンプルデータ中に存在すれば対応する属性名のタグに変換し、また分類器により取り得る文字列(抽出すべき語)であると判定されれば対応する属性名に変換する文書分類手段と、
属性名のタグから左右にn個ずつを抜き出して、抽出すべき語と判定された文字列のみを抽出するためのWrapperを生成する特殊Wrapper生成手段160と、
特殊Wrapper生成手段160で生成されたWrapper間の類似度に基づいて、類似したWrapperを含む意味で類似する文書群をクラスタとして取り出すクラスタ生成手段170と、
クラスタ生成手段170で生成されたクラスタ毎に、クラスタ内の文書群内で出現頻度が少ないWrapperを削除し、残りのWrapper集合を一つあるいはなるべく少ない数のWrapperで代替するという一般化を行い、記憶手段に格納する一般化手段180と、を有する。
本発明(請求項)は、コンピュータを、請求項記載の構造化文書生成装置の各手段として機能させるための構造化文書生成プログラムである。
上記のように本発明によれば、従来抽出語判定部においてサンプルデータに存在する文字列のみを抽出対象としていたが、文書学習機能を導入することでサンプルデータに類似したデータも抽出対象とすることができるため、表記揺れなどが頻出するような抽出対象においてもWrapperを生成することが可能となる。
また、特殊Wrapperを入力としてクラスタを生成し、そのクラスタ内でのみ、Wrapperの一般化をすることで、それぞれのクラスタに合わせたWrapperを生成するため、どのページから情報を抽出するかを入力せずに抽出することが可能となる。
以下、図面と共に本発明の実施の形態を説明する。
本発明は、入力されたデータから情報抽出器(Wrapper)を生成する情報抽出器生成フェーズと、生成された情報抽出器を適用する情報抽出器適用フェーズがある。
[情報抽出器生成フェーズ]
まず、情報抽出器生成フェーズについて説明する。
図3は、本発明の一実施の形態における情報構造化装置の構成を示す。
同図に示す情報構造化装置は、サンプルデータ110、文書集合120、属性データ130を入力する情報入力部140、入力された文書集合120を分割して分類する抽出語判定部150、抽出語判定部150より判定された文字列を抽出するための最も特殊なWrapper(抽出すべき語と判定された文字列のみを抽出するためのWrapper)を生成する特殊Wrapper生成部160、生成されたWrapperから入力された文書をクラスタ化するクラスタ生成部170、特殊Wrapperとクラスタから一般化されたWrapperを生成するWrapper生成部180及び、Wrapper生成部180で生成された一般化されたWrapperを格納するWrapper記憶部190から構成される。
情報入力部130は、図4に示されるようなサンプルデータ、図5に示されるような文書集合及び図6に示されるような属性データ入力される。

図4のサンプルデータは、属性と実際の値を示す。例えば、"材料:たまねぎ"というレコードは、材料という属性に「たまねぎ」という値を持つデータが存在することを示している。この属性と後述する図6の属性は関連付けられている。
図5の文書集合は、HTML(Hyper Text Markup Language)等で記述された文書を指し、ネットワークを経由してWebから収集を行う。
図6は抽出したい属性の設定ファイル例である。属性の欄には図5の属性名を記述し、スロットの欄にはその属性がマルチスロットなのか、シングルスロットなのかを記述する。マルチスロットとは図4の「材料」のようにあるページ内に複数の値を採り得る属性を指し、シングルスロットはある文書内に一つしか存在しない属性を指す。値の欄にはその属性がどういう値を採り得るのかが記述されており、学習、テキスト、数値などの値を採り得る。"学習"とは、前述した表記揺れなどが起こりやすい属性に対して、抽出語を判定する際に学習を利用する。"テキスト"とは文字列が抽出される属性を示し、"数値"とは数値情報が抽出される属性であることを示す。
抽出語判定部150は、入力された文書集合120を分割し、分割された単位毎に分類を行う。分割はHTMLのタグを目印に文章を分割する。このHTMLのタグで分割した単位をトークンと呼ぶ。このトークンに対して図6に属性データ130を付与するのが抽出語判定部150である。付与する属性が学習型属性の場合は抽出すべきトークンであるかを後述する分類器が判別する。
図7に学習型属性のデータを入力とした際の抽出語判定部150(学習時)の構成を示す。文書学習部151では、サンプルデータ110を入力として分類器152を作成する。分類器152は、例えば入力となったデータ110を形態素解析し、ユニークな形態素列をベクトルとしてSupport Vector Machines(以下SVMと記す)などで分類器152を作成する。全文書のユニークな単語列を(w1,w2,w3,…,wn)とすると、単語w1のみで構成される文書は(1,0,0,…,0)と表現できる。このデータを用いて分類器152を作成する。この場合他のサンプルデータには不正解が存在しないので、例えば、"B.Schlkoph, J.C.Platt, J. Shaew-Taylor, A.J.Smola and R.C.Williamson, Estimating the Support of High-Dimensional Distribution, Neural Computation, 13, 2001."に示すOne Class SVMを利用しても良い。
図8に抽出語判定部150(適用時)の構成を示す。文書分割部153は文書をトークン毎に分割する。文書分類部154は、前述した抽出語判定部150(学習時)で出力された分類器152を利用して文書集合の中から抽出語かどうかを分類し、抽出語判定済みの文書集合を抽出語判定済み文書集合記憶部155に出力する。学習属性でない属性に関してはサンプルデータとして入力された文書列がトークンと一致する場合にそのトークンを抽出すべき語として判定する。図9に、図4のサンプルデータを与え、抽出すべき語を属性名のタグに変換した例を示す。サンプルデータに登録されているデータは、<材料>や<量>などに判別すべき語を変換する。また、「たまねぎ」というデータはサンプルデータに登録されていないため、判別すべき語とされていない。
特殊Wrapper生成部160では、抽出語判定部150において抽出すべきと判定された文字列に対して最も特殊なWrapperを生成する。図10に、材料データにおける最も特殊なWrapperの例を示す。最も特殊なWrapperは<材料>や<属性>が付与されたタグから、左右n個(例では5個)ずつを抜き出してWrapperを作成する。nは任意に与えることができる。Lは抽出語判定部150で抽出すべき語の左のタグで、Rは右のタグである。IDはそのタグを抽出したURLを示す。
クラスタ生成部170では、特殊Wrapper生成部160で作成されたWrapperを利用してWebページをクラスタリングする。
図11は、本発明の一実施の形態におけるクラスタ生成のフローチャートである。
ステップ101) クラスタ生成部170は、入力としてID(x,y,…)とWrapper(W={x,x,x,x,…,x},W={y,y,y,y,…,y}…)のセットが入力される。任意の2つのID(x,y)間の距離Sxyは例えば下記のようなユークリッド距離で定義される。
Figure 0004937709
ここで、Wは全ての文書で存在するユニークなWrapperセットであり、xはそのWrapper wの頻度情報を利用してもよい。算出されたSxyが低いほど生成されるWrapperが類似しているので、Webページの構造が類似していると定義する。なお、距離を算出する方法はユークリッド距離でなく、例えば、マンハッタン距離などを利用してもよい。この距離に基づいてクラスタリングを行う。ここでは最長距離法を利用したクラスタリングの例を示す。
ステップ102) 前述した距離を全てのID間で計算する。
ステップ103) ID間の距離が最も小さいものが指定した閾値よりも低い(近い)場合は、ステップ104に移行し、そうでない場合は処理を終了する。
ステップ104) そのIDの2点を結合して新IDzとして登録し、x,yを削除する。閾値は事前に設定しておく。
zと任意の点tとの距離を計算する際は、
Figure 0004937709
のようにzのクラスタメンバx,yの中で最も遠い距離をそのクラスタの任意のID間の距離とする。これをID間の類似度が閾値より高くなるまで繰り返す。
Wrapper生成部180では、ID、生成された特殊なWrapper及びクラスタ生成部170で生成されたクラスタを入力とし、前述したクラスタ毎にWrapperを一般化する。
図12は、本発明の一実施の形態におけるWrapperの一般化のフローチャートである。
ステップ201) Wrapper生成部180は、前述したクラスタが持つWrapperのセットを入力とする。
ステップ202) 入力されたWrapperの出現頻度が低い(例えば、頻度1)ものは削除する。
ステップ203) Wrapperを一般化するか否かを判定し、一般化が可能であれば、ステップ204に移行し、そうでなければステップ205に移行する。一般化が可能であるか否かの判定は、入力されたWrapperを適用した際に、そのWrapperで抽出できるトークン数が1より大きくなったときにWrapperの一般化ができないと判定する。
ステップ204) 一般化が可能であれば、入力となったWrapperを一般化する。一般化は例えば、Wrapperの要素を一つずつ削除することで実現される。図13にWrapperを一般化するための動作アルゴリズムを示す。以下、ステップ301,302においてWrapperの一般化について説明する。
ステップ301) 図10で示したL,Rで記述長が長いWrapperを取得する。「記述長が長い」とは含まれる要素数が大きいことをさす。記述長が同様の場合は共通するWrapperの数が少ない方を一般化する。その数も同様の場合は、Rを一般化する。
ステップ302) Lが選択された場合はLの最初の要素を削除し、Rが選択された場合はRの最後の要素を削除する。図14に図10のWrapperを一般化する過程例を示す。入力を最上部のWrapperとすると、Lの要素数は5でRの要素数が4なので、Lの最初の要素である<レシピタイトル>を削除することで一般化される。次のステップではLとRの要素数が等しいので、Rの要素の末尾を削除して一般化を行う。
上記のステップ301,302を繰り返すことでWrapperを一般化する。Wrapperの一般化の方法は、"N.Kushmerick; Wrapper induction: efficiency and expressiveness, Artificial Intelligence, Vol. 118,. 15-68 (2000)"に記載されているHLRT WrapperやOCLR Wrapperの一般化アルゴリズムを利用してもよい。
ステップ205) 一般化されたWrapperをWrapper記憶部190に保存する。
[情報抽出器適用フェーズ]
次に、情報抽出器適用フェーズでは、上記の情報抽出器生成フェーズにより生成されたWrapperを適用する。
図16は、本発明の一実施の形態における情報構造化装置(適用時)の構成を示す。
同図において、図3と同一構成部分には同一符号を付し、その説明を省略する。
図16に示す適用時の情報構造化装置は、情報入力部130、抽出語判定部150、情報抽出器生成フェーズで作成された一般化されたWrapperを文書集合に適用するWrapper適用部210と、Wrapper適用部210によって抽出されたデータを格納する抽出データ記憶部220から構成される。情報抽出器適用フェーズの抽出語判定部150の構成は図8で述べたとおりである。
情報抽出器適用フェーズでは、Wrapper適用部210において、抽出部判定部150で前述の情報抽出器生成フェーズと同様の抽出語判定を行った後、Wrapper記憶部190から一般化されたWrapperを読み込んで文書集合に適用し、最終的な抽出データを得て、抽出データ記憶部220に保存する。
情報抽出器生成フェーズにおいてWrapperが一般化されているため情報入力部140で入力となったサンプルデータ以外のデータが抽出データとして抽出される。
なお、図3及び、図16の情報構造化装置の動作をプログラムとして構築し、情報構造化装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、文書検索における文書を構造化する技術、特に、Wrapperに適用可能である。
本発明の原理を説明するための図である。 本発明の原理構成図である。 本発明の一実施の形態における情報構造化装置の構成図である。 本発明の一実施の形態におけるサンプルデータの例である。 本発明の一実施の形態における文書集合の例である。 本発明の一実施の形態における属性データの例である。 本発明の一実施の形態における抽出語判定部の構成図(学習時)である。 本発明の一実施の形態における抽出語判定部の構成図(適用時)である。 本発明の一実施の形態における変換後の文書データの例である。 本発明の一実施の形態における最も特殊なWrapperの例である。 本発明の一実施の形態におけるクラスタ生成のフローチャートである。 本発明の一実施の形態におけるWrapperの一般化のフローチャートである。 本発明の一実施の形態におけるWrapper一般化アルゴリズムである。 本発明の一実施の形態におけるWrapper一般化過程の例である。 本発明の一実施の形態における一般化されたWrapperの例である。 本発明の一実施の形態における情報構造化装置(適用時)の構成図である。
符号の説明
110 サンプルデータ
120 文書集合
130 属性データ
140 情報入力手段、情報入力部
150 抽出語判定手段、抽出語判定部
151 文書学習部
152 分類器
153 文書分割部
154 文書分類部
155 抽出語判定済み文書集合記憶部
160 特殊Wrapper生成手段、特殊Wrapper生成部
170 クラスタ生成手段、クラスタ生成部
180 一般化手段、Wrapper生成部
190 記憶手段、(一般化された)Wrapper記憶部
210 Wrapper適用部
220 抽出データ記憶部

Claims (3)

  1. 情報を構造化する構造化文書生成方法であって、
    情報入力手段が、属性と該属性が取った実際の値からなるサンプルデータ、文書集合、抽出したい情報を定義した属性データを受け付ける情報入力ステップと、
    分類器生成手段が、前記文書集合の表記ゆれが起こりやすい属性について、サンプルデータの前記属性に対応する実際の値である文字列集合から、該文字列を構成する形態素の組み合わせでできる部分文字列の集合を、該属性が取り得る文字列(抽出すべき語)であると判定する分類器を生成する分類器生成ステップと、
    文書分割手段が、前記文書集合の各文書を文書中のタグによりトークンに分割する文書分割ステップと、
    文書分類手段が、前記トークンがサンプルデータ中に存在すれば対応する属性名のタグに変換し、また前記分類器により取り得る文字列(抽出すべき語)であると判定されれば対応する属性名に変換する文書分類ステップと、
    特殊Wrapper生成手段が、前記属性名のタグから左右にn個ずつを抜き出して、前記抽出すべき語と判定された文字列のみを抽出するためのWrapperを生成する特殊Wrapper生成ステップと、
    クラスタ生成手段が、前記特殊Wrapper生成ステップで生成された前記Wrapper間の類似度に基づいて、類似したWrapperを含む意味で類似する文書群をクラスタとして取り出すクラスタ生成ステップと、
    一般化手段が、前記クラスタ生成ステップで生成されたクラスタ毎に、クラスタ内の文書群内で出現頻度が少ないWrapperを削除し、残りのWrapper集合を一つあるいはなるべく少ない数のWrapperで代替するという一般化を行い、記憶手段に格納する一般化ステップと、
    を行うことを特徴とする構造化文書生成方法。
  2. 情報を構造化する構造化文書生成装置であって、
    属性と該属性が取った実際の値からなるサンプルデータ、文書集合、抽出したい情報を定義した属性データを受け付ける情報入力手段と、
    前記文書集合の表記ゆれが起こりやすい属性について、サンプルデータの前記属性に対応する実際の値である文字列集合から、該文字列を構成する形態素の組み合わせでできる部分文字列の集合を、該属性が取り得る文字列(抽出すべき語)であると判定する分類器を生成する分類器生成手段と、
    前記文書集合の各文書を文書中のタグによりトークンに分割する文書分割手段と、
    前記トークンがサンプルデータ中に存在すれば対応する属性名のタグに変換し、また前記分類器により取り得る文字列(抽出すべき語)であると判定されれば対応する属性名に変換する文書分類手段と、
    前記属性名のタグから左右にn個ずつを抜き出して、前記抽出すべき語と判定された文字列のみを抽出するためのWrapperを生成する特殊Wrapper生成手段と、
    前記特殊Wrapper生成手段で生成された前記Wrapper間の類似度に基づいて、類似したWrapperを含む意味で類似する文書群をクラスタとして取り出すクラスタ生成手段と、
    前記クラスタ生成手段で生成されたクラスタ毎に、クラスタ内の文書群内で出現頻度が少ないWrapperを削除し、残りのWrapper集合を一つあるいはなるべく少ない数のWrapperで代替するという一般化を行い、記憶手段に格納する一般化手段と、
    を有することを特徴とする構造化文書生成装置。
  3. コンピュータを、請求項記載の構造化文書生成装置の各手段として機能させるための構造化文書生成プログラム。
JP2006316038A 2006-11-22 2006-11-22 構造化文書生成方法及び装置及びプログラム Expired - Fee Related JP4937709B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006316038A JP4937709B2 (ja) 2006-11-22 2006-11-22 構造化文書生成方法及び装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006316038A JP4937709B2 (ja) 2006-11-22 2006-11-22 構造化文書生成方法及び装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2008129943A JP2008129943A (ja) 2008-06-05
JP4937709B2 true JP4937709B2 (ja) 2012-05-23

Family

ID=39555678

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006316038A Expired - Fee Related JP4937709B2 (ja) 2006-11-22 2006-11-22 構造化文書生成方法及び装置及びプログラム

Country Status (1)

Country Link
JP (1) JP4937709B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8275681B2 (en) 2007-06-12 2012-09-25 Media Forum, Inc. Desktop extension for readily-sharable and accessible media playlist and media
JP5108025B2 (ja) 2008-05-16 2012-12-26 株式会社ニチレイバイオサイエンス ラン科植物から得られる抽出物およびその製造方法、ならびにラン科植物から得られる抽出物を含有する皮膚外用剤
US9477777B2 (en) * 2013-03-15 2016-10-25 Rakuten, Inc. Method for analyzing and categorizing semi-structured data

Also Published As

Publication number Publication date
JP2008129943A (ja) 2008-06-05

Similar Documents

Publication Publication Date Title
Buttler et al. A fully automated object extraction system for the World Wide Web
Chang et al. Automatic information extraction from semi-structured web pages by pattern discovery
US9268749B2 (en) Incremental computation of repeats
US20030115189A1 (en) Method and apparatus for electronically extracting application specific multidimensional information from documents selected from a set of documents electronically extracted from a library of electronically searchable documents
US20030115188A1 (en) Method and apparatus for electronically extracting application specific multidimensional information from a library of searchable documents and for providing the application specific information to a user application
JP2005174336A (ja) 情報抽出のための一般化文字列パターンの学習および使用
JP2009110513A (ja) ワードの類似性を用いたオントロジーの自動生成
JP5079471B2 (ja) 同義語抽出装置
US11301639B2 (en) Methods and systems for generating a reference data structure for anonymization of text data
Uzun et al. An effective and efficient Web content extractor for optimizing the crawling process
Chasin et al. Extracting and displaying temporal and geospatial entities from articles on historical events
El Abdouli et al. Sentiment analysis of moroccan tweets using naive bayes algorithm
JP2007047974A (ja) 情報抽出装置および情報抽出方法
Kosala et al. Information extraction from structured documents using k-testable tree automaton inference
JP4937709B2 (ja) 構造化文書生成方法及び装置及びプログラム
JP2005250820A (ja) ストレージシステムにおけるxml文書分類方法
JP5921457B2 (ja) 文書要約方法、装置、及びプログラム
Di Castro et al. Automated extractions for machine generated mail
JP2010250439A (ja) 検索システム、データ生成方法、プログラムおよびプログラムを記録した記録媒体
KR101105798B1 (ko) 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법
JP5169456B2 (ja) 文書検索システム、文書検索方法および文書検索プログラム
JP2004030202A (ja) 特徴語抽出システム
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
JP4266584B2 (ja) テキストデータ群生成装置、テキストデータ群生成方法、プログラムおよび記録媒体
JP2007188427A (ja) 話題画像選出方法及び装置及プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110524

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110715

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120214

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120222

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150302

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4937709

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees