JP2005149236A - ブロック自動抽出装置、ブロック自動抽出方法およびプログラム - Google Patents

ブロック自動抽出装置、ブロック自動抽出方法およびプログラム Download PDF

Info

Publication number
JP2005149236A
JP2005149236A JP2003387165A JP2003387165A JP2005149236A JP 2005149236 A JP2005149236 A JP 2005149236A JP 2003387165 A JP2003387165 A JP 2003387165A JP 2003387165 A JP2003387165 A JP 2003387165A JP 2005149236 A JP2005149236 A JP 2005149236A
Authority
JP
Japan
Prior art keywords
tag
block
date
document
time information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003387165A
Other languages
English (en)
Inventor
Masayuki Sugizaki
正之 杉崎
Toshiaki Makino
俊朗 牧野
Akiya Kurishima
聡哉 栗島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2003387165A priority Critical patent/JP2005149236A/ja
Publication of JP2005149236A publication Critical patent/JP2005149236A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract


【課題】 所定の形式に従って記述された文書から、特徴的なブロックを抽出するブロック自動抽出装置において、精度よく情報ブロックを抽出することを目的とする。

【解決手段】 文書を入力する文書入力部と、上記文書入力部で入力された文書から、特定のタグ情報を抽出するタグ情報抽出部と、上記文書入力部で入力された文書の中から、日時情報を抽出する日時情報抽出部と、上記日時情報抽出部が抽出した日時情報に基づいて、ブロックとしてのまとまり程度を示す上記特定の上記各タグの重みを求め、兄弟タグ間の類似度を求め、この求めた類似度と、上記求めたタグの重みとに応じて、タグのブロック度を求めるブロック認識部とを有するブロック自動抽出装置である。

【選択図】 図1

Description

本発明は、所定の形式に従って記述された文書において、複数の情報が記述されている所定の1つの文書内から、所定の情報を適切に抽出するブロック自動抽出装置、ブロック自動抽出方法およびプログラムに関する。
近年、インターネット等のコンピュータネットワークを通じて、大量の電子化された文書をやり取りし、不特定多数を対象にして情報発信できるようになった。
コンピュータネットワーク上で表現された文書では、その特徴を生かした表現が利用されている。中でもWWW(World Wide Web)上のHTMLと呼ばれる文書は、何らかの情報を書き記すだけではなく、他のコンピュータ上に存在する他の人が書いた文書を参照する「ハイパーリンク」の機能がある。これは、他の文書を信頼して自分の記している情報を補完し、同じ内容の文書を指すとき等に利用される。
HTMLファイルにおいて、上記ハイパーリンク、または、「太字」、「斜体」等、文字の修飾等は、「タグ」と呼ばれる「<」「>」で囲まれた特別な文字列によって指定される(たとえば、非特許文献1参照)。
HTMLファイル内には、様々な単位の情報が混合して記述されている場合がある。たとえば、新聞社で作成されたHTMLファイルには、ある事件に対する記事内容、その記事に関連する過去の記事へのハイパーリンク、同時期の別の記事へのハイパーリンク、文書とは全く無関係の広告記事や同社内のサービス説明へのハイパーリンク等が記述されている。
一方、大量のHTMLファイルの中から、欲しい情報が記述されているファイルだけを容易に探し出せるように、HTMLファイルを収集し、検索できるようにしたサービスが公開されている(http://www/google.com/、http;//www/goo.ne.jp/等)。一般的な従来の検索システムにおいて、所定の単語列を入力すると、この入力された単語列を含むHTMLファイルを、検索結果として羅列する。
これらの検索システムにおいて、検索精度を向上させるためには、複数の情報がまとめて1つのHTMLファイルに記述されている場合、上記複数の情報を構成する個々の情報に分割し、この分割された情報を検索対象とすべきである。
すなわち、検索対象を、ファイル単位とした場合、複数の単語を入力すると、この入力された複数の単語を構成する各単語が、同一の1つのファイルに存在したとしても、上記1つのファイルを構成する1つの情報には、上記構成する各単語の全てが存在しない場合があり、この場合に、上記1つのファイルを検索し、適切な検索が実行されたとは言えない。
より適切な検索を実行するために、従来、同時期に作成された同一のデザイン(形式、タグの並び)で記述された複数のHTMLファイルを用いて、ブロックを抽出する方法が知られている(たとえば、特許文献1参照)。上記「デザイン」は、同じサイト内の各HTMLファイルをブラウザで表示した際に、見ための形式である。たとえば、○○新聞社のホームページにおける <http://www.○>○.com/である。
特開2002−334090号公報 「HTML 4.01 Specification」(http://www/w3/org/TR/1999/REC-html1401-19991224)
しかし、上記従来例では、複数のHTMLファイルを1つのコンピュータ(または、同一サービスを実現するコンピュータ群)から、まったく同時に、大量に取得することが難しく、また、たとえ同時期に複数のHTMLファイルを大量に取得することができたとしても、他者が管理するコンピュータ上から取得したいくつかのHTMLファイルの、同一ブロックである筈の部分が一部変更されていることは大いに有り得るという問題がある。
つまり、見た目は統一されているので、短時間に取得したHTMLファイルをブラウザで表示した際に、たとえば、多くのファイルでは「左上には社名の絵が表示されている」が、残りのいくつかは「左上の社名の絵が異なる」場合があり、この場合、「左上の社名の絵」を制御するのは、HTMLファイルを作っている会社(上記例であれば、○○新聞社)である。すなわち、短時間であるとはいえ、時間が違えば、統一されているであろう部分が異なっている(揺らぎがある)ことは、大いにあり得る。
本発明は、精度よく情報ブロックを抽出することができるブロック自動抽出装置提供することを目的とする。つまり、所定の1つの「意味単位(ブロック)」を抽出する場合、「複数のHTMLファイルを短時間で収集してブロックを抽出する」場合よりも、上記揺らぎ(誤差、または、ずれ)が影響せずに、情報ブロックを抽出することができるブロック自動抽出装置を提供することを目的とする。
本発明は、所定の形式に従って記述された文書から、特徴的なブロックを抽出するブロック自動抽出装置において、文書を入力する文書入力部と、上記文書入力部で入力された文書から、特定のタグ情報を抽出するタグ情報抽出部と、上記文書入力部で入力された文書の中から、日時情報を抽出する日時情報抽出部と、上記日時情報抽出部が抽出した日時情報に基づいて、ブロックとしてのまとまり程度を示す上記特定の上記各タグの重みを求め、兄弟タグ間の類似度を求め、この求めた類似度と、上記求めたタグの重みとに応じて、タグのブロック度を求めるブロック認識部とを有するブロック自動抽出装置である。
本発明によれば、文書内のある特定の形式で書かれた文字列を含む日時情報等の繰り返し部分に、評価値を与え、この評価値を用いるので、複数の情報の切れ目であるブロックの切れ目を容易に識別し、ブロックを適切に抽出することができるという効果を奏する。
発明を実施するための最良の形態は、以下の実施例である。
HTMLのタグ間には、包含関係(上下関係)が存在し、木構造として扱うことが可能であり、親子関係(parent-child)、兄弟関係という概念が存在する(たとえば、非特許文献1参照)。
通常、同一水準の情報は、同一の兄弟関係として記述される場合が多い。「箇条書き」を表現するためのタグ「li」を用いた例として、
<li>
<ol>あ</ol>
<ol>い</ol>
<ol>う</ol>
</li>
があり、上記「あ」、「い」、「う」は、互いに同一水準の情報であると考えられる。
また、本発明の実施例1における目的は、特定の情報を有するブロック(または、特定の記述がされているブロック)を認識することであり、その「特定の情報」は、「日時情報」、「発言者」、「個人ID」等の情報である。
次に、上記実施例におけるブロック抽出方法の概要について説明する。
まず、HTMLファイルを解析し、HTMLタグを抽出する。タグ情報内に存在する木構造から、同じ水準の子供のタグ(すなわち、兄弟タグ)を、親タグ毎に数え上げる。
一方、HTMLファイル内に存在する日時情報を抽出する。ここで、抽出対象である日時情報は、HTMLファイルの表示装置において、最終的に表示される文字列である。つまり、表示に利用されない文字列(たとえば、「コメントタグ<!−−>で括られた文字列」等を、抽出対象には含めない。
最小単位である所定のタグtの重みwを、各タグ内に含まれている日時情報の数に基づいて、次の式(1)、式(2)によって求める。
タグtの重みw=1/m (日時情報をm個含む場合) … 式(1)
タグtの重みw=0 (日時情報を含まない場合) … 式(2)
とする。なお、上記式(1)と式(2)とが示す「タグtの重み」は、最下位層のタグの固まり具合(ブロック度の1種)を示す数値であり、日付情報に基づいて推定した数値である。1つのタグの中に、日付情報が多数、存在していれば、それだけ情報が分散していると考えられるので、「重み」が小さいと考える。
HTMLタグは、基本的に開始タグ「<……>」と、終了タグ「</……>」とが存在し、「タグ内に含まれる文字列」は、開始タグと、この開始タグに対応する終了タグとによって挟まれた文字列である。すなわち、終了タグや、開始タグ終了タグの対を持たないタグの重みを計算することはない。
上記開始タグと、この開始タグに対応する終了タグとによって挟まれた文字列が、ブロックの候補である。ブロックとして抽出する開始タグは、デザイン(表示したときの、2次元におけるX,Y座標)に影響があるタグ(ブロック要素)のみが、ブロックとして抽出する開始タグであるとし、それ以外のタグ(インライン要素)は、ブロックとして抽出する開始タグとしては、扱わない。
複数の兄弟タグtchを有する親タグtの重みWtpを、次の式(3)によって示す。
Figure 2005149236
とする。ただし、Nは、兄弟のタグの数を表す。この場合、兄弟のタグの重みw chの値を計算するときに用いる「日時情報」は、兄弟タグに囲まれている日付情報の中で、最も出現回数が多い形式の日時情報のみである。
次に、ブロック同士の形式の類似度を定義する。
所定のブロックB内のタグを、その並んでいる順に、B1,B2,B3,…,Bnとし、以下のような特徴ベクトルvec_Bを考える。
vec_B=(B1B2,B2B3,…,Bn−1Bn) …… 式(4)
BiBi+1には、その並びでの出現回数がカウントされる。つまり、タグBiと、タグBi+1とは、連続しているタグである。
たとえば、所定のブロックB内のタグが<TR><TD></TD>であれば、これは、<TR><TD>を要素とする特徴ベクトルと、<TD></TD>を要素とする特徴ベクトルとによって構成されている。この場合、<TR><TD>を要素とする特徴ベクトルが1回出現し、<TD></TD>を要素とする特徴ベクトルが1回出現している。
これよって、ブロックa,bの類似度rel(a,b)の三角関数のcosを用い、
rel(a,b)=cos=(vec_a x vec_b)/|vec_a||vec_b| …… 式(4)
とすると、タグの並びが類似している場合は、類似度の値が1になり、タグの並びが類似していない場合は、類似度の値が0になる類似度wを定義することができる。
たとえば、所定のブロックA、B、Cが、それぞれ、
A…<TR><TD><TD><TD>、
B…<TR><TD><TD><TD>、
C…<TR><TD><TD></TD>
というタグの並びである場合、ブロックAとBとは、タグの並びが類似していると考え、ブロックAとCとは、タグの並びが、ブロックA、Bほどは類似せず、また、ブロックBとCとは、タグの並びが、ブロックA、Bほどは類似していないと考える。
つまり、上記例において、各特徴ベクトルと出現回数とは、
A…(<TR><TD>,<TD><TD>)→(1,2)であり、
B…(<TR><TD>,<TD><TD>)→(1,2)であり、
C…(<TR><TD>,<TD><TD>,<TD></TD>)→(1,1,1)
である。
つまり、タグの並びが<TR><TD><TD>であるブロックAにおける特徴ベクトルの要素は、<TR><TD>,<TD><TD>,<TD><TD>であり、したがって、特徴ベクトルの要素の種類は、<TR><TD>,<TD><TD>の2種類であり、<TR><TD>を要素とする特徴ベクトルの出現回数は、1回であり、<TD><TD>を要素とする特徴ベクトルの出現回数は、2回である。
また、タグの並びが<TR><TD><TD>であるブロックBにおける特徴ベクトルの要素と出現回数とは、ブロックAと同じである。
さらに、タグの並びが<TR><TD><TD></TD>であるブロックCにおける特徴ベクトルの要素は、<TR><TD>,<TD><TD>,<TD></TD>であり、したがって、特徴ベクトルの要素の種類は、<TR><TD>,<TD><TD>,<TD></TD>の3種類であり、<TR><TD>を要素とする特徴ベクトルの出現回数、<TD><TD>を要素とする特徴ベクトルの出現回数、<TD></TD>を要素とする特徴ベクトルの出現回数は,それぞれ1回である。
ここで三角関数cosを利用し、出現回数のベクトル同士の類似度を計算すると、ブロックAとBとの類似度は1であり、ブロックAとCとの類似度、ブロックBとCとの類似度は、ブロックAとBとの類似度よりも小さくなる。全く類似しなければ、類似度は0である。
n個の兄弟を子供とするタグtのブロック度bを、次の式(5)によって示す。
Figure 2005149236
つまり、上記式(5)は、n個のブロックの場合、式(4)による類似度は、(n個から2個とる組み合わせ)個、存在するので、これらの平均値を求め、しかも、上記式(3)に示す親タグtの重みWとの積で計算される。
同一の形式が意図的に繰り返し出現している場合(つまり、TR1、TR2、TR3が繰り返された部分になり、すなわち、同じ形式(タグの並び, 構成要素)が、何回も出現している場合)、個々の情報は、それぞれある1つの意味単位を形成し、その情報を利用してブロックを抽出する。
つまり、実施例1において、まず、構造化文書(HTML)のタグを木構造とし、日時情報に基づいて、各タグの重み(ブロックとしてのまとまり程度)を求める。この場合、最下位のタグの重みについては、式(1)、式(2)によって求め、それ以外のタグの重みに付いては、上記式(3)によって求める。
そして、兄弟タグ間の類似度を、上記式(4)によって求め、上記式(4)によって求めた類似度と、上記式(3)によって求めたタグの重みとを使用し、上記式(5)によって、タグのブロック度を求める。
次に、上記実施例をより具体的に説明する。なお、同一要素には、同一符号を付け、その繰り返しの説明を省略する。
図1は、本発明の実施例1であるブロック自動抽出装置100の概略構成を示すブロック図である。
ブロック自動抽出装置100は、文書入力部10と、タグ情報抽出部20と、日時情報抽出部30と、ブロック認識部40とを有する。
実施例1であるブロック自動抽出装置100では、まず処理対象である文書を、文書入力部10で入力する。
タグ情報抽出部20は、文書入力部10で入力された文書から、HTMLタグを抽出する。コンピュータネットワークであるインターネット上で一般化したHTMLファイルの場合、上記目印として付けられた「タグ」は、HTMLタグである。
日時情報抽出部30は、文書入力部10で入力された文書から、日時情報を抽出する。抽出するためのルールを、予め用意し、ルールに合致した情報を、日時情報として抽出する。
ブロック認識部40は、タグ情報抽出部20が抽出したタグ情報と、日時情報抽出部30が抽出した日時情報とを用い、各タグの重みを計算し、ブロックとして適切なタグを求める。つまり、ブロック認識部40は、日時情報抽出部が抽出した日時情報に基づいて、ブロックとしてのまとまり程度を示す上記各タグの重みを求め、上記兄弟タグ間の類似度を求め、この求めた類似度と、上記求めた兄弟タグの重みとに応じて、兄弟タグのブロック度を求めるブロック認識部の例である。
次に、実施例1の具体的な動作について説明する。
実施例1が解析対象とする文書は、コンピュータネットワークであるインターネット上のHTMLファイルであるとする。これらHTMLファイルを、文書入力部10から入力する。
図2は、入力された文書の例を示す図であり、samp.htmlを示す図である。
図3は、入力された文書の例を示す図であり、samp.htmlを示す図であり、図2を説明するために、各タグの後ろに番号を付与してある。
つまり、図2の2つ目のTRタグを示す場合、図3において、TR2という表現を使っている。
タグ情報抽出部20は、文書入力部10で入力されたHTMLファイルを解析し、タグを抽出する。samp.html(図3の下から2行目に記載されている)から抽出されるタグは、説明用に使用する図3の「samp.html」において、「HTML1」、「TABLE1」、「/TABLE1」等である。
タグの木構造を用いて、抽出されたタグの親子兄弟関係と、その数とを計算する。たとえば、TABLE1の子供として、子供タグTR1、TR2、TR3があり、また、子供タグTR1の子供として、つまり、孫タグTD1、TD2が存在している。よって、TABLE1の子供の数は、「3」であり、タグTR1の子供の数は、「2」である。また、タグの締めくくりを表す「/TALBE1」等は、子供を持たない。
日時情報抽出部30は、文書入力部10で入力されたHTMLファイルを解析し、文書中に記述された日時情報を抽出する。samp.htmlから抽出すべき日時情報として、「2003/05/09」、「2003/05/10」、「2003/05/12」の3種類が存在する。
ブロック認識部40は、タグ情報抽出部20が抽出したタグ情報と、日時情報抽出部30が抽出した日時情報とに基づいて、各タグのブロック度を計算する。
次に、タグのブロック度の計算について説明する。
まず、日時情報を有するタグtの重みwを計算する。タグTD1、TD3、TD5が、日時情報を有しているので、タグTD1、TD2、TD3のブロック度がそれぞれ1である。
続いて、親子兄弟関係を用い、親タグの重みを計算する。この場合、値が0より大きなタグを子供に持つのがTALBE1タグである。つまり、式(3)によって、タグtの重みWは、兄弟のタグの重みw chの値の積となっているので兄弟のタグの重みw chが0であれば(すなわち、日時情報を含まなければ)、タグtの重みWの値は、自動的に0になる。これを、利用すると、兄弟のタグの重みw chの値が0よりも大きな親のタグのみ、タグTの重みWの値を計算すれば足りる。
また、値が0より大きなタグを子供に持つのがTALBE1タグであるので、タグtの重みWを、次の式(6)によって求める。
タグtの重みW=3×1×1×1=3 … 式(6)
つまり、TABLE1を親タグとし、タグtの重みWを計算すると、
子どもの数は、TR1、TR2、TR3の3つであり、各子どもの兄弟のタグの重みw chが日付情報を1つずつ含むので1である。なお、タグTR1の重みは、<TR1>から</TR1>までの間、すなわち、<TR1><TD1>2003/05/09<TD1><TD2>…</TD2></TR1>の中に、日付情報が1つ出現しているので、タグの重みw(w ch)は1である。したがって、上記式(6)に示すように、
タグの重みW=3×1×1×1=3になる。
さらに、兄弟タグ同士の類似度rel(t,t)は、全て1である。つまり、TR1、TR2、TR3のタグの並びは、どれも、<TR><TD></TD><TD></TD></TR>であり(図2を参照、 図3はあくまでも説明用)、並びと出現回数とを示す特徴ベクトルが全く同じであるので、rel(ti,tj)の値は、全て1になる。
したがって、ブロック度bを、次の式(7)によって求める。
ブロック度b=3×(1+1+1)×2/(3×2)=3 … 式(7)
つまり、子どもがTR1、TR2、TR3の3つであり、rel(ti,tj)の値が1であるので、rel(ti,tj)の組み合わせ数は、=(3×2)/2=3通りであり、rel(ti,tj)の和は、1+1+1であり、タグtの重みWは、3×1×1×1=3であり、これらを、式(5)に代入すると、上記式(3)になる。
また、他のブロックとして、BODY1タグ等があるが、その子供タグは、TABLE1のみである。この場合、TABLE1の重みwを求めると、1/3であり、BODY1タグの重みwを求めると、同じく1/3になる。兄弟は1であるので、ブロック度bは、1/3である。
これによって、TABLE1タグの子供タグTR1、TR3、TR5が、ブロック(正確には「の先頭タグ」)として抽出される。つまり、TABLE1タグとBODY1タグのブロック度btとを比較すると、TABLE1タグのブロック度が大きいので、TABLE1タグのほうが、BODY1タグよりもブロックとして抽出すべきタグになる。
すなわち、ここで閾値thを導入し、ブロック度がthよりも大きいタグtの子どもタグを、ブロックとして抽出することにする。たとえば、thの値が1 であるとすると、「ブロック度がthよりも大きいタグ」は、TABLE1タグのみであり、ブロックは、「TR1、TR2、TR3」である。また、thの値が1/4であるとすると、「ブロック度がthよりも大きいタグ」は、BODY1タグとTABLE1タグとの2種類になり、ブロックは、「TABLE1」と「TR1、TR2、TR3」とである。
図4は、実施例1の動作を示すフローチャートである。
まず、入力されたHTMLファイルからタグを抽出する(S1)。つまり、所定の形式に従って記述された文書から、特徴的なブロックを抽出するブロック自動抽出方法において、文書を入力する文書入力段階の後に、上記文書入力段階で入力された文書から、タグ情報を抽出するタグ情報抽出段階を実行する。
次に、入力されたHTMLファイルから日時情報を抽出する(S2)。すなわち、上記文書入力段階で入力された文書の中から、日時情報を抽出する日時情報抽出段階を実行する。
そして、抽出されたタグと日時の情報とを用いて、ブロックとして認識する候補となるタグのブロック度を計算する(S3)。つまり、上記日時情報抽出段階で抽出された日時情報に基づいて、ブロックとしてのまとまり程度を示す上記タグの重みを求め、上記兄弟タグ間の類似度を求め、この求めた類似度と、上記求めた兄弟タグの重みとに応じて、兄弟タグのブロック度を求めるブロック認識段階を実行する。
その後、ブロック度の大きいタグに属する子供タグを、ブロックとして抽出する(S4)。
上記実施例によれば、特に、「掲示板」サービス、「日記」サービスにおいて、HTMLファイル中のブロックの構成要素として、日時情報と1つの情報とがペアで記録され、共通の日時の形式の繰り返しを利用することによって、ブロックを適切に抽出することができる。
なお、上記実施例を、プログラムの発明として把握することができる。つまり、上記実施例は、所定の形式に従って記述された文書から、特徴的なブロックを抽出するブロック自動抽出プログラムにおいて、文書を入力する文書入力手順と、上記文書入力手順で入力された文書から、タグ情報を抽出し、メモリに格納するタグ情報抽出手順と、上記文書入力手順で入力された文書の中から、日時情報を抽出し、メモリに格納する日時情報抽出手順と、上記日時情報抽出手順で抽出された日時情報に基づいて、ブロックとしてのまとまり程度を示す上記タグの重みを求め、上記兄弟タグ間の類似度を求め、この求めた類似度と、上記求めた兄弟タグの重みとに応じて、兄弟タグのブロック度を求め、ブロック度をメモリに格納するブロック認識手順とをコンピュータに実行させるプログラムの例である。
また、上記プログラムを、CD、DVD、HD、半導体メモリ等の記録媒体に格納するようにしてもよい。
本発明の実施例1であるブロック自動抽出装置100の概略構成を示すブロック図である。 入力文書の例を示す図であり、samp.htmlを示す図である。 入力された文書の例を示す図であり、samp.htmlを示す図であり、図2を説明するために、各タグの後ろに番号を付与してある。 実施例1の動作を示すフローチャートである。
符号の説明
10…文書入力部、
20…タグ情報抽出部、
30…日時情報抽出部、
40…ブロック認識部。

Claims (3)

  1. 所定の形式に従って記述された文書から、特徴的なブロックを抽出するブロック自動抽出装置において、
    文書を入力する文書入力部と;
    上記文書入力部で入力された文書から、タグを抽出するタグ情報抽出部と;
    上記文書入力部で入力された文書の中から、日時情報を抽出する日時情報抽出部と;
    上記日時情報抽出部が抽出した日時情報に基づいて、ブロックとしてのまとまり程度を示す上記タグの重みを求め、上記兄弟タグ間の類似度を求め、この求めた類似度と、上記求めた兄弟タグの重みとに応じて、兄弟タグのブロック度を求めるブロック認識部と;
    を有することを特徴とするブロック自動抽出装置。
  2. 所定の形式に従って記述された文書から、特徴的なブロックを抽出するブロック自動抽出方法において、
    文書を入力する文書入力段階と;
    上記文書入力段階で入力された文書から、タグ情報を抽出するタグ情報抽出段階と;
    上記文書入力段階で入力された文書の中から、日時情報を抽出する日時情報抽出段階と;
    上記日時情報抽出段階で抽出された日時情報に基づいて、ブロックとしてのまとまり程度を示す上記タグの重みを求め、上記兄弟タグ間の類似度を求め、この求めた類似度と、上記求めた兄弟タグの重みとに応じて、兄弟タグのブロック度を求めるブロック認識段階と;
    を有することを特徴とするブロック自動抽出方法。
  3. 所定の形式に従って記述された文書から、特徴的なブロックを抽出するブロック自動抽出プログラムにおいて、
    文書を入力する文書入力手順と;
    上記文書入力手順で入力された文書から、タグ情報を抽出し、メモリに格納するタグ情報抽出手順と;
    上記文書入力手順で入力された文書の中から、日時情報を抽出し、メモリに格納する日時情報抽出手順と;
    上記日時情報抽出手順で抽出された日時情報に基づいて、ブロックとしてのまとまり程度を示す上記タグの重みを求め、上記兄弟タグ間の類似度を求め、この求めた類似度と、上記求めた兄弟タグの重みとに応じて、兄弟タグのブロック度を求め、ブロック度をメモリに格納するブロック認識手順と;
    をコンピュータに実行させるプログラム。
JP2003387165A 2003-11-17 2003-11-17 ブロック自動抽出装置、ブロック自動抽出方法およびプログラム Pending JP2005149236A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003387165A JP2005149236A (ja) 2003-11-17 2003-11-17 ブロック自動抽出装置、ブロック自動抽出方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003387165A JP2005149236A (ja) 2003-11-17 2003-11-17 ブロック自動抽出装置、ブロック自動抽出方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2005149236A true JP2005149236A (ja) 2005-06-09

Family

ID=34694625

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003387165A Pending JP2005149236A (ja) 2003-11-17 2003-11-17 ブロック自動抽出装置、ブロック自動抽出方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2005149236A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007119567A1 (ja) * 2006-03-31 2007-10-25 Justsystems Corporation 文書処理装置および文書処理方法
CN109949046A (zh) * 2018-11-02 2019-06-28 阿里巴巴集团控股有限公司 风险团伙的识别方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007119567A1 (ja) * 2006-03-31 2007-10-25 Justsystems Corporation 文書処理装置および文書処理方法
JP4878624B2 (ja) * 2006-03-31 2012-02-15 株式会社ジャストシステム 文書処理装置および文書処理方法
CN109949046A (zh) * 2018-11-02 2019-06-28 阿里巴巴集团控股有限公司 风险团伙的识别方法和装置
CN109949046B (zh) * 2018-11-02 2023-06-09 创新先进技术有限公司 风险团伙的识别方法和装置

Similar Documents

Publication Publication Date Title
CA2777409C (en) System and method for text cleaning
Akpınar et al. Vision based page segmentation algorithm: Extended and perceived success
JP5447862B2 (ja) 単語分類システム、方法およびプログラム
JP5229226B2 (ja) 情報共有システム、情報共有方法、および情報共有プログラム
WO2015047920A1 (en) Title and body extraction from web page
JP5273735B2 (ja) テキスト要約方法、その装置およびプログラム
JP6462970B1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
US8392820B2 (en) Method of establishing a plain text document from a HTML document
CN107577663B (zh) 一种关键短语抽取方法和装置
CN112805715A (zh) 识别实体属性关系
JP4293145B2 (ja) クチコミ情報判定方法及び装置及びプログラム
JP2006190229A (ja) 意見抽出用学習装置及び意見抽出用分類装置
CN106372232B (zh) 基于人工智能的信息挖掘方法和装置
Maududie et al. An approach of web scraping on news website based on regular expression
JP2008225846A (ja) 単語意味タグ付与装置および方法、プログラム並びに記録媒体
JP2005149236A (ja) ブロック自動抽出装置、ブロック自動抽出方法およびプログラム
JP4148247B2 (ja) 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
Norabid et al. Rule-based text extraction for multimodal Knowledge Graph
JP4114874B2 (ja) ブロック自動抽出装置およびプログラム
JP2010244341A (ja) 属性表現獲得方法及び装置及びプログラム
JP2004334382A (ja) 構造化文書要約装置、プログラムおよび記録媒体
JP2009140048A (ja) 評判関係抽出装置、その方法およびプログラム
JP6707410B2 (ja) 文献検索装置、文献検索方法およびコンピュータプログラム
JP6200392B2 (ja) 情報提示装置および情報提示プログラム
JP2020071668A (ja) 要約生成方法及び要約生成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060405

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090312

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090323

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090521

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090710

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090813

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20091023