JP4114874B2 - ブロック自動抽出装置およびプログラム - Google Patents

ブロック自動抽出装置およびプログラム Download PDF

Info

Publication number
JP4114874B2
JP4114874B2 JP2004141726A JP2004141726A JP4114874B2 JP 4114874 B2 JP4114874 B2 JP 4114874B2 JP 2004141726 A JP2004141726 A JP 2004141726A JP 2004141726 A JP2004141726 A JP 2004141726A JP 4114874 B2 JP4114874 B2 JP 4114874B2
Authority
JP
Japan
Prior art keywords
tag
block
tags
child
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004141726A
Other languages
English (en)
Other versions
JP2005322179A (ja
Inventor
正之 杉崎
俊朗 牧野
聡哉 栗島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004141726A priority Critical patent/JP4114874B2/ja
Publication of JP2005322179A publication Critical patent/JP2005322179A/ja
Application granted granted Critical
Publication of JP4114874B2 publication Critical patent/JP4114874B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、所定の形式に従って記述されている文書において、複数の情報が記述されている1つの文書内から、各情報を適切に抽出するブロック自動抽出装置、ブロック自動抽出方法およびプログラムに関する。
近年、インターネット等、コンピュータネットワークを通じて、電子化された大量の文書をやり取りし、不特定多数を対象にして情報を発信することができる。コンピュータネットワーク上で表現された文書では、その特徴を生かした表現が利用されている。
中でも、WWW(World Wide Web)上のHTMLと呼ばれる文書は、なんらかの情報を書き記すだけではなく、他のコンピュータ上に存在する他の人が書いた文書を参照する「ハイパーリンク」の機能がある。
このパイパーリンク機能は、他の文書を信頼して、自分の記している情報を補完したり、同じ内容の文書を指すとき等に利用される。
HTMLファイルにおいて、上記ハイパーリンク、または、「太字」や「斜体」といった文字の修飾等は、「タグ」と呼ばれる「<」「>」で囲まれた特別な文字列によって、指定される。(HTMLファイルのタグに関して、たとえば、非特許文献1を参照)。
見た目に影響がある「箇条書き」等、表示した際に2次元的に影響があるタグは、「ブロック要素」と呼ばれ、それ以外のタグ(たとえば、文字の色)は、「インライン要素」と呼ばれている。
HTMLファイル内には、様々な単位の情報が混合して記述されている場合がある。新聞社で作成されたHTMLファイルを例に挙げると、ある事件に対する記事内容とそれに関連する過去の記事へのハイパーリンク、同時期の別の記事へのハイパーリンク、文書とは全く無関係の広告記事や同社内のサービス説明へのハイパーリンク等が、同一ファイル内に記述されている。
また、個人の日記を記述したある1つのHTMLファイルでは、たとえば、
「3/22 パソコンを買った(1)」、
「3/23 新しい本を買った。面白かった(2)」、
「3/26 デジカメが故障した。修理に持って行った(3)」
等、様々な話題が存在する場合がある。なお、上記、(1)(2)(3)は、説明用のラベルであるが、上記ラベルで挟まれている文書を、「ブロック」と呼ぶ。
一方、大量のHTMLファイルの中から欲しい情報が記述されたものだけを容易に探し出せるように、HTMLファイルを収集し、検索できるようにしたサービス(検索システム)が公開されている(http://www.google.com/, http://www.goo.ne.jp/等)。
上記検索システムでは、単語列を入力すると、入力された単語列を含むHTMLファイルを、検索結果として羅列するものが一般的である。これらの検索システムでは、検索精度を向上させるために、複数の情報がまとめて1つのHTMLファイルに記述されている場合、個々の情報に分割して検索対象とすべきである。
つまり、検索対象をファイル単位とすると、複数の単語によって構成されている1つのキーワードを入力し、検索した場合、上記複数の単語の全てが、1つの情報の中に存在するのではなく、1つのファイルを構成する複数の情報にまたがって、上記複数の単語のそれぞれが点在する場合もあり得る。
たとえば、「パソコン 修理」というキーワード(「パソコン」と「修理」とによって、2つのキーワードを構成している)を含む検索要求では、上記日記の例のHTMLファイルが検索されるが、実際のHTMLファイルには、パソコンの修理(パソコンを修理すること)に関する情報は、書かれてなく、したがって、検索対象をファイル単位とすると、検索精度が低下する。
したがって、ブロックを検索対象とする必要があり、上記ブロックを抽出する場合、従来、同時期に作成された同一のタグの並びで記述されている複数のHTMLファイルを用いて、ブロックを抽出する方法が知られている(たとえば、特許文献1参照)。
特開2002−334090号公報 「HTML 4.01 Specification」1999年12月(URL:http://www.w3.org/TR/1999/REC-html401-19991224)
しかし、1つのコンピュータ(または、同一サービスを実現するコンピュータ群)から、複数のHTMLファイルを、全く同時にしかも大量に取得することは困難であり、また、いくら時期的に同じでも、他者が管理するコンピュータ上から取得したいくつかのHTMLファイルの、同一ブロックである筈の部分が一部変更されていることは大いにあり得る。
つまり、上記従来例では、所定の形式に従って記述された文書から、特徴的なブロックを抽出する場合、複数の情報の切れ目であるブロックを、適切かつ容易に、識別し、抽出することができないという問題がある。
本発明は、所定の形式に従って記述された文書から、特徴的なブロックを抽出する場合、複数の情報の切れ目であるブロックを、適切かつ容易に、識別し、抽出することができるブロック自動抽出装置、ブロック自動抽出方法およびプログラムを提供することを目的とするものである。
本発明は、所定の形式に従って記述された文書から、特徴的なブロックを抽出するブロック自動抽出装置において、文書を入力する文書入力部と、上記文書入力部で入力された文書から、所定のタグの情報を抽出するタグ情報抽出部と、上記文書入力部で入力された文書から、ブロックを構成するに必須な特徴情報を、各タグについて抽出する特徴情報抽出部と、上記タグ情報抽出部が抽出した上記所定のタグと、上記特徴情報とを用いて、上記入力された文書中に繰返し出現するブロックを抽出する繰り返し出現ブロック認識部とを有し、上記繰り返し出現ブロック認識部は、各タグの重みを、上記特徴情報抽出部で抽出された特徴情報の数量に基づいて計算する手段と、各タグについて、その子供タグの前後の並びパターンの出現回数を要素とする特徴ベクトルを求め、特徴ベクトルを用いて2つのタグ間の類似度をそれぞれ求める手段と、各タグについて、その子供タグの重みと子供タグ間の類似度とに基づいて、ブロック群度を求める手段と、ブロック群度が閾値以上であるブロックを抽出する手段とからなるブロック自動抽出装置である。
本発明によれば、文書内のある特定の形式で書かれた文字列を含む繰返し部分に、評価値を与え、この評価値を用いるので、複数の情報の切れ目であるブロックを、適切かつ容易に、識別し、抽出することができるという効果を奏する。
また、本発明によれば、単純な繰返しだけではなく、いくつかの組み合わせ、または子供タグ同士の間の類似度に閾値を導入し、上記類似度が他の兄弟タグの類似度と異なる兄弟タグを取り除くようにすると、より頑健にブロックを抽出できるという効果を奏する。
発明を実施するための最良の形態は、以下の実施例である。
まず、親子関係(parent−child)や、兄弟関係という概念について説明する。
HTMLのタグ間には、包含関係(上下関係)が存在し、木構造として扱うことが可能であり、親子関係(parent−child)や、兄弟関係という概念が存在する。これら概念については、上記非特許文献1に記載されている。
通常、同一水準の情報は、同一の兄弟関係として記述される場合が多い。
「箇条書き」を表現するタグ「li」を用いて、たとえば、情報「あ」、「い」、「う」を記述すると、
<li>
<ol>あ</ol>
<ol>い</ol>
<ol>う</ol>
</li>
のように記述され、上記情報「あ」、「い」、「う」は、互いに同一水準の情報であり、すなわち同一の兄弟関係と考えることができる。
また、本発明の実施例1の抽出対象は、特徴情報を有するブロック(または、特定の記述がされているブロック)であり、上記「特徴情報」は、たとえば、「日時情報」、「発言者情報」、「個人ID」である。
図2は、本発明の実施例1におけるブロックと、その集合体であるブロック群の例を示す図である。
次に、ブロックおよびブロック群の抽出方法について説明する。
ここでは、上記特徴情報(ブロックを構成する要素の必須項目)として、「日時情報」を考える。
まず、HTMLファイルを解析し、HTMLタグを抽出する。HTMLタグ情報内に存在する木構造から、同じ水準の子供(すなわち、兄弟)のタグの数を、親タグ毎に、数える。
一方、HTMLファイル内に存在する日時情報を抽出する。ここで、抽出対象となる日時情報は、HTMLファイルの表示装置において、最終的に表示される文字列である。換言すると、表示に利用されない文字列(たとえば、「コメントタグ<!−−>」で括られている文字列)等を、抽出対象には含めない。
最小単位である所定のタグtの重みwは、次のものであると定義する。
=1/m(日時情報をm個含む場合) …式(1)
=0(日時情報を含まない場合) …式(2)
なお、上記「日時情報」は、各タグ内に含まれる日時情報である。ここで、上記「タグ内に含まれる日時情報」と記載したのは、HTMLタグは、基本的に、開始タグ(<…>)と終了タグ(</…>)とであり、開始タグとこの開始タグに対応する終了タグとが、文字列を挟み、上記文字列として「日時情報」が、開始タグと終了タグとに挟まれているからである。
すなわち、終了タグや開始タグ等、タグの対を持たないタグについては、その重みを計算する必要がない。
また、タグi,jの類似度を定義する場合、それぞれの子供タグを用いて定義する。タグiの子供タグをch ,…,ch とする。文書における子供タグの並びの中で、文書を除いた場合に、互いに隣接する子供タグch ch m+1をペアにし、でき上がったパターン(ペア)を数え、次の式(3)ように、特徴ベクトルvecを定義する。
vec=(v ,…,v ) …式(3)
式(3)において、v は、2つの子供タグで構成されているパターンch ch k+1の出現回数である。 …(4)
たとえば、A、B、Cが、タグTの子供タグであるとし、「ABCBCA」について考える。子供タグの並びのパターン(ペア)としては、要素「AB」が1回、要素「BC」が2回、要素「CB」が1回、要素「CA」が1回であるから、これから生成される特徴ベクトルvecは、
vec=(1,2,1,1) …式(5)
である。ただし、式(5)の右辺における各要素は、(AB,BC,CB,CA)におけるそれぞれの出現回数である。これを用いて、タグi,jの類似度rel(i,j)を、
rel(i,j)=vec・vec/(|vec||vec|) …式(6)
とする。式(6)の右辺における分子は、ベクトルの内積であり、その分母は、各ベクトルの大きさを掛け合わせたものである。つまり、式(6)は、特徴ベクトルvec,vecの成す角θを利用して、三角関数のcosθを計算したものと同値である。
これによって、タグの並びの類似の度合いが高いる場合(文書中において、文書を除いた場合に互いに隣接するタグ同士が互いの類似の度合いが高い場合)は、タグi,jの類似度rel(i,j)の値が1に近く、上記類似の度合いが低い程、タグi,jの類似度rel(i,j)の値が0に近い。このようにして、類似度を定義することができる。ただし、子供タグを有さないタグ同士の類似度は、1であるとする。
以上を用いて、タグtのブロック群度block(t)を、以下の式(7)のように定義する。
Figure 0004114874
とする。ただし、Nは、タグtの子供タグの数である。最初の項が、各子供タグの日時情報の含有率の平均値であり、後の項が、各子供タグ同士の類似度の平均値である。子供タグが、日時情報を必ず1回含み、かつ、子供タグ同士が類似していると、ブロック群度は高くなる。
以上によって、ブロック群度が、ある閾値よりも高いタグを、ブロック群として抽出し、この抽出されたブロック群に含まれている子供タグを、ブロックの先頭タグとして抽出する。
しかし、これだけでは不十分なタグのパターンが存在するので(他の用途にも適用できるようにするために、)、次の手法[1]、手法[2]を使用する。手法[1]は、複数の子供タグを組合せて、ブロック群度を再計算する手法であり、手法[2]は、類似度が低い子供タグを、ブロック抽出する場合に、無視する手法である。
上記手法[1]は、たとえば、
<li>
<ol>10/10</ol>
<ol>あああ</ol>
<ol>10/11</ol>
<ol>いいい</ol>
</li>
と記述されていたHTMLファイルが存在する場合、i番目のolタグとi+1番目のolタグとのペアによって、1つのブロックを構成する。このようなブロックを、1つのブロックとして認識するために、タグtにn個の子供タグがある場合、まず、n個の子供タグ間でタグtのブロック群度を計算し、次に、i番目とi+1番目とを1つのブロックとして、n/2個の子供タグ間で計算し……という処理を繰返し、ブロック群度が最も大きな値となるケース(組み合わせ)を、ブロックおよびブロック群として抽出する。
上記手法[2]は、たとえば、
<li>
<ol>io/10</ol>
<ol>あああ</ol>
<ol><H2>ここは広告</H2></ol>
<ol>10/11</ol>
<ol>いいい</ol>
</li>
と記述されているHTMLファイルが存在する場合、3番目のolタグが、1番目、2番目のolタグによるブロック候補とは異なり、また、4番目、5番目のolタグによるブロック候補とも異なる。このように、類似度が低い子供タグは、ブロック群抽出時に悪い影響を与える。したがって、他のブロック候補(子供タグ)との類似度がある閾値以下であるブロック候補(子供タグ)を、ブロック抽出時に、ブロックとして無視してブロック群度を計算する。このようにすることによって、広告のブロック等、不要なタグに対応することができる。
図1は、本発明の実施例1であるブロック自動抽出装置10の概略構成を示すブロック図である。
なお、実施例の説明において、実施例における同一要素には同一符号を付し、その繰り返しの説明を省く。
ブロック自動抽出装置10は、文書入力部11と、タグ情報抽出部12と、特徴情報抽出部13と、ブロック認識部14とを有する。
文書入力部11は、ブロック自動抽出装置10において、処理対象となる文書を入力する部分である。
タグ情報抽出部12は、文書入力部11で入力された文書から、タグを抽出する。上記タグは、コンピュータネットワークであるインターネット上で一般化したHTMLファイルにおいては、HTMLタグである。
特徴情報抽出部13は、文書入力部11で入力された文書から、特徴情報を抽出する。上記「特徴情報」は、たとえば、日時情報である。この日時情報を抽出するためのルールを予め用意し、このルールに合致した日時情報を抽出する。
なお、上記日時情報を抽出するためのルールは、たとえば、「nnnn/nn/nn(nは0から9までの数字)の場合は、日付として抽出するルール」、「nnnn年nn月nn日(nは0から9までの数字)の場合は、日付として抽出するルール」、「nn:nn:nn(nは0から9までの数字)の場合は、時刻として抽出するルール」を考えることができる。
ブロック認識部14は、タグ情報抽出部12が抽出したタグ情報と、特徴情報抽出部13が抽出した日時情報とを用いて、各タグの重みを計算し、ブロックを抽出する場合に適切なタグを求める。
[具体例を用いた処理の説明]
次に、具体例を用いて、実施例1における処理について説明する。
解析対象とする文書を、コンピュータネットワークであるインターネット上のHTMLファイルとする。これらHTMLファイルを、文書入力部11から入力する。
図2、図3は、実施例1において、文書入力部11から入力された文書の例を示す図である。
タグ情報抽出部12は、文書入力部11で入力されたHTMLファイルを解析し、タグを抽出する。
図4は、図3に示す文書のHTMLファイルの中身を示す図である。
図5は、図4に示すHTMLファイルの中身を、説明し易くするために、ラベル付けを行った図である。
図4に示すHTMLファイルから抽出されるタグは、「HTML」や「TABLE」や「/TABLE」や「TR1」等である。タグの木構造を用いて、抽出されたタグの親子兄弟関係、およびその数を計算する。
たとえば、タグTABLEの子供タグとして、タグTR1、TR2、TR3、TR4があり、また、タグTR1の子供として、タグTD1,TD2が存在している。よって、タグTABLEの子供タグの数は4であり、タグTR1の子供タグの数は2である。また、タグの締めくくりを表す/TABLE等は子供を持たない。
特徴情報抽出部13は、文書入力部11で入力されたHTMLファイルを解析し、入力文書中に記述されている特徴情報を抽出する。特徴情報が日時情報であるとすると、図4、図5に示す例では、抽出される特徴情報は、「2003/05/09」、「2003/05/10」、「2003/05/12」の3種類である。
ブロック認識部14は、上記タグ情報抽出部12から抽出されたタグ情報と、特徴情報抽出部13から抽出された日時情報とに基づいて、各タグのブロック度を計算する。
まず、日時情報を有するタグの重みwを計算する。タグTD1、TD5、TD7が日時情報を有するので、これら3つのタグのそれぞれの重みwの値が、1である。また、その直接の親であるTR1、TR3、TR4も、日時情報を1つずつ有するので、各親タグの重みwの値が1である。
上記ブロック群度を計算するには、子供タグ同士の類似度を計算する必要がある。子供タグを有するタグは、タグHTML、BODY、TABLE、TRx(x=1,2,3,4)であるが、実際に表示するためのタグは、BODY、TABLE、TRxである。
次に、類似度の平均値を計算する。タグTR1の子供タグは、タグTD1,TD2であり、タグTD1、TD2は、子供タグを持たないので、タグTD1とTD2との類似度rel(TD1,TD2)は、上記のように、
rel(TD1,TD2)=1 …式(8)
である。
また、TABLEの場合、その子供タグは、TR1、TR2、TR3、TR4である。
その特徴ベクトルは、
vecTR1=(TD/TD,TDTD)=(2,1) …式(9)
vecTR2=(TD/TD,/TDTD,TDA,A/A,/A/TD)
=(1,1,1,1,1) …式(10)
vecTR3=(TD/TD,TDTD)=(2,1) …式(11)
vecTR4=(TD/TD,TDTD)=(2,1) …式(12)
となる。
なお、上記式(9)において、「(TD/TD,TDTD)」は、タグTDと、タグ/TDとが、文書を除けば、隣接し、また、タグTDとタグTDとが、文書を除けば隣接していることを示する。そして、上記式(9)において、「(TD/TD,TDTD)=(2,1)」は、タグTDとタグ/TDとのペアが、2回発生し、タグTDとタグTDとのペアが1回発生していることを示している。
つまり、式(9)に示すvecTR1は、図5に記載されているように、「TD1/TD1TD2/TD2」であり、これから数字部分を省略すると「TD/TDTD/TD」になり、式(3)から、ペアは、「TD/TD」、「/TDTD」、「TD/TD」の3つであり、上記のように、タグTDとタグ/TDとのペアが、2回発生し、タグTDとタグTDとのペアが1回発生している。
また、式(10)において、vecTR2は、図5に記載されているように、「TD3/TD3TD4A1/A1/TD4」であり、これから数字部分を省略すると「TD/TDTDA/A/TD」になり、式(3)から、ペアは、「TD/TD」、「/TDTD」、「TD/A」、「A/A」、「/A/TD」の5つであり、上記のように、タグTDとタグ/TDとのペアが1回発生し、タグ/TDとタグTDとのペアが1回発生し、タグTDとタグAとのペアが1回発生し、タグAとタグ/Aとのペアが1回発生し、タグ/Aとタグ/TDとのペアが1回発生している。
式(11)、式(12)についても、上記と同様にして導出することができる。
また、類似度は、
rel(TRx,TR2)=3/5=0.6 …式(13)
rel(TRx,TRy)=1/5=1 …式(14)
となる(ただし、x,y=1,3,4)。
なお、式(13)、式(14)は、式(6)から導出される。また、式(13)における「3/5」は、「5分の3」であり、式(14)における「1/5」は、「5分の1」である。
BODYの子供タグは、FONT、HR、TABLE、HR、A2、A3、A4であるが、ブロック要素は、タグTABLEのみである。
よって、ブロック群度を計算できるタグは、タグTABLEのみであり、このブロック群度を単純に計算すると、
blocktable=3/4×2/4(4−1)・(0.6+1+1+0.6+0.6+1) …式(15)
=0.6 …式(16)
となる。
なお、式(15)、式(16)は、式(7)から導出される。
ここで、上記手法[2]を採り入れ、TABLEのブロック群度を計算する。つまり、タグTR2のみが、それ以外の子供タグとの間で、特徴ベクトルが異なるので、無視する。したがって、子供タグは、タグTR1,TR3,TR4であり、
block(TABLE)=3/3×2/3(3−1)・(1+1+1) …式(17)
=1 …式(18)
であり、この組み合わせの方が、ブロック群度は高くなる。
なお、式(17)、式(18)は、式(7)から導出される。
また、手法[2]の代わりに、「他のタグとの類似度relの値が、たとえば0.7(閾値)以下であれば、無視する」手法を採用するようにしてもよい。
次に、上記と同様に、上記手法[1]を実行する。まず、タグTR1、TR2を、1つのブロック、タグTR3、TR4を、1つのブロックとすると、それぞれのブロック内に、日時情報が1回、2回と出現するので、タグTR1、TR2のブロック、タグTR3、TR4のブロックの重みwの値は、それぞれ1、0.5である。
また、特徴ベクトルvecTR1、タグ間の類似度rel(TR1,TR3)は、
vecTR1=(TD/TD,/TDTD,TDA,A/A,/A/TD)=(3,3,1,1,1) …式(19)
vecTR3=(TD/TD,/TDTD)=(4,3) …式(20)
rel(TR1,TR3)=√21/5=0.917 …式(21)
である。
なお、式(19)、式(20)、式(21)は、式(3)から導出される。
よってブロック群度は、
block(TABLE)=1+0.5/2×2/2(2−1)・0.917…式(22)
=0.688 …式(23)
となり、この場合、上記手法[2]のみを用いた場合の方が、ブロック群度の値が高い。
なお、式(22)、式(23)は、式(7)から導出される。
これと同様に、タグTR1、TR2、TR3を1つのブロックとし、タグTR4を1つのブロックとして計算すると、ブロック群度の値は低くなる。
よって、この例のケースでは、タグTABLEの子供タグであるTR1、TR3、TR4が「ブロック」として抽出される。つまり、タグTABLEの子供タグであるTR1、TR3、TR4が、正しくは、「ブロックの先頭タグ」として抽出される。
上記実施例によれば、所定の形式に従って記述された文書から、特徴的なブロックを抽出する場合、複数の情報の切れ目であるブロックを適切かつ容易に、識別し、抽出することができる。
上記実施例によれば、特に、「掲示板」サービスや、「日記」、「Weblog(blog)」サービスでは、HTMLファイル中のブロックの構成要素として、日時情報と1つの情報とがペアで記録されているので、共通の日時の形式の繰返しを利用することによって、適切にブロックを抽出することができる。
つまり、上記実施例は、所定の形式に従って記述された文書から、特徴的なブロックを抽出するブロック自動抽出方法において、入力された文書から、所定のタグの情報を抽出し、メモリに記憶するタグ情報抽出段階と、上記入力された文書から、特徴情報を抽出し、メモリに記憶する特徴情報抽出段階と、上記タグ情報抽出段階が抽出した上記所定のタグと、上記特徴情報とを用いて、上記入力された文書中に繰返し出現するブロックを認識し、メモリに記憶する繰り返し出現ブロック認識段階とを有するブロック自動抽出方法の例である。
この場合、上記ブロック認識段階において、タグのブロック群度を計算する際に、抽出された子供タグの集合の中で、上記子供タグの列における前後の並びが、他の子供タグの前後の並びと異なる並びの子供タグの列を無視することによって、ブロックを抽出する。
そして、上記ブロック認識段階において、上記タグのブロック群度を計算する場合、抽出された子供タグの集合の中で、複数の子供タグを組み合わせブロックとして、上記タグのブロック群度を計算することによって、ブロックを抽出する。
また、上記実施例を、プログラムの発明として把握することができる。つまり、上記実施例は、所定の形式に従って記述された文書から、特徴的なブロックを抽出する場合、入力された文書から、所定のタグの情報を抽出し、メモリに記憶するタグ情報抽出手順と、上記入力された文書から、特徴情報を抽出し、メモリに記憶する特徴情報抽出手順と、上記タグ情報抽出手順が抽出した上記所定のタグと、上記特徴情報とを用いて、上記入力された文書中に繰返し出現するブロックを認識し、メモリに記憶する繰り返し出現ブロック認識手順とをコンピュータに実行させるプログラムの例である。
この場合、上記ブロック認識手順において、タグのブロック群度を計算する際に、抽出された子供タグの集合の中で、上記子供タグの列における前後の並びが、他の子供タグの前後の並びと異なる並びの子供タグの列を無視することによって、ブロックを抽出する。
そして、上記ブロック認識手順において、上記タグのブロック群度を計算する場合、抽出された子供タグの集合の中で、複数の子供タグを組み合わせブロックとして、上記タグのブロック群度を計算することによって、ブロックを抽出する。
本発明の実施例1であるブロック自動抽出装置10の概略構成を示すブロック図である。 本発明の実施例1におけるブロックと、その集合体であるブロック群の例を示す図である。 実施例1において、文書入力部11から入力された文書の例を示す図である。 図3に示す文書のHTMLファイルの中身を示す図である。 図4に示すHTMLファイルの中身を、説明し易くするために、ラベル付けを行った図である。
符号の説明
10…ブロック自動抽出装置、
11…文書入力部、
12…タグ情報抽出部、
13…特徴情報抽出部、
14…ブロック認識部。

Claims (5)

  1. 所定の形式に従って記述された文書から、特徴的なブロックを抽出するブロック自動抽出装置において、
    文書を入力する文書入力部と;
    上記文書入力部で入力された文書から、所定のタグの情報を抽出するタグ情報抽出部と;
    上記文書入力部で入力された文書から、ブロックを構成するに必須な特徴情報を、各タグについて抽出する特徴情報抽出部と;
    上記タグ情報抽出部が抽出した上記所定のタグと、上記特徴情報とを用いて、上記入力された文書中に繰返し出現するブロックを抽出する繰り返し出現ブロック認識部と;
    を有し、
    上記繰り返し出現ブロック認識部は、
    各タグの重みを、上記特徴情報抽出部で抽出された特徴情報の数量に基づいて計算する手段と;
    各タグについて、その子供タグの前後の並びパターンの出現回数を要素とする特徴ベクトルを求め、特徴ベクトルを用いて2つのタグ間の類似度をそれぞれ求める手段と;
    各タグについて、その子供タグの重みと子供タグ間の類似度とに基づいて、ブロック群度を求める手段と;
    ブロック群度が閾値以上であるブロックを抽出する手段と;
    からなることを特徴とするブロック自動抽出装置。
  2. 請求項1において、
    上記ブロック認識部において、タグのブロック群度を計算する際に、計算対象のタグの子供タグの集合の中で、他の子供タグとの類似度が閾値以下である子供タグを除外して計算することを特徴とするブロック自動抽出装置。
  3. 請求項1において、
    上記ブロック認識部において、上記タグのブロック群度を計算する場合、計算対象のタグの子供タグの集合の中で、複数の子供タグを組み合わせブロックとし、各組み合わせブロックについて、その重みと特徴ベクトルとを求めるとともに、組み合わせブロック間の類似度を求め、組み合わせブロックの重みと組み合わせブロック間の類似度とに基づいて、ブロック群度を求めることを特徴とするブロック自動抽出装置。
  4. 請求項1〜請求項3のいずれか1項において、
    上記ブロック群度は、重みの平均値と、類似度の平均値との乗算の結果であることを特徴とするブロック自動抽出装置。
  5. 請求項1〜請求項4のいずれか1項に記載のブロック自動抽出装置を構成する各手段としてコンピュータを機能させるブロック自動抽出プログラム。
JP2004141726A 2004-05-11 2004-05-11 ブロック自動抽出装置およびプログラム Expired - Fee Related JP4114874B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004141726A JP4114874B2 (ja) 2004-05-11 2004-05-11 ブロック自動抽出装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004141726A JP4114874B2 (ja) 2004-05-11 2004-05-11 ブロック自動抽出装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2005322179A JP2005322179A (ja) 2005-11-17
JP4114874B2 true JP4114874B2 (ja) 2008-07-09

Family

ID=35469402

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004141726A Expired - Fee Related JP4114874B2 (ja) 2004-05-11 2004-05-11 ブロック自動抽出装置およびプログラム

Country Status (1)

Country Link
JP (1) JP4114874B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5669611B2 (ja) * 2011-02-16 2015-02-12 田中 成典 グループ化装置およびエレメント抽出装置

Also Published As

Publication number Publication date
JP2005322179A (ja) 2005-11-17

Similar Documents

Publication Publication Date Title
Ahmed et al. Detection of online fake news using n-gram analysis and machine learning techniques
Xu et al. Using deep linguistic features for finding deceptive opinion spam
CN102737013B (zh) 基于依存关系来识别语句情感的设备和方法
US20200004792A1 (en) Automated website data collection method
JP5447862B2 (ja) 単語分類システム、方法およびプログラム
CN110390018A (zh) 一种基于lstm的社交网络评论生成方法
CN104899322A (zh) 搜索引擎及其实现方法
CN103049435A (zh) 文本细粒度情感分析方法及装置
Marinho et al. Authorship attribution via network motifs identification
CN102227724A (zh) 对于音译的机器学习
Qian et al. Generating accurate caption units for figure captioning
CN110096681B (zh) 合同条款分析方法、装置、设备及可读存储介质
CN105843796A (zh) 一种微博情感倾向分析方法及装置
US20130282727A1 (en) Unexpectedness determination system, unexpectedness determination method and program
Veena et al. An effective way of word-level language identification for code-mixed facebook comments using word-embedding via character-embedding
Anoop et al. Leveraging heterogeneous data for fake news detection
Rodrigo-Ginés et al. A systematic review on media bias detection: What is media bias, how it is expressed, and how to detect it
JP4293145B2 (ja) クチコミ情報判定方法及び装置及びプログラム
CN116151233A (zh) 数据标注、生成方法、模型训练方法、设备和介质
Wu et al. Price tag: towards semi-automatically discovery tactics, techniques and procedures of E-commerce cyber threat intelligence
Modi et al. Sentiment analysis of Twitter feeds using flask environment: A superior application of data analysis
CN114722174A (zh) 提词方法和装置、电子设备及存储介质
CN107145591A (zh) 一种基于标题的网页有效元数据内容提取方法
JP2009237640A (ja) 情報抽出装置、情報抽出方法および情報抽出プログラム
Yao et al. A unified approach to researcher profiling

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060731

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080111

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080118

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080317

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080411

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080411

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110425

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4114874

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110425

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120425

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130425

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140425

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees