JP2005149236A - ブロック自動抽出装置、ブロック自動抽出方法およびプログラム - Google Patents
ブロック自動抽出装置、ブロック自動抽出方法およびプログラム Download PDFInfo
- Publication number
- JP2005149236A JP2005149236A JP2003387165A JP2003387165A JP2005149236A JP 2005149236 A JP2005149236 A JP 2005149236A JP 2003387165 A JP2003387165 A JP 2003387165A JP 2003387165 A JP2003387165 A JP 2003387165A JP 2005149236 A JP2005149236 A JP 2005149236A
- Authority
- JP
- Japan
- Prior art keywords
- tag
- block
- date
- document
- time information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】 所定の形式に従って記述された文書から、特徴的なブロックを抽出するブロック自動抽出装置において、精度よく情報ブロックを抽出することを目的とする。
【解決手段】 文書を入力する文書入力部と、上記文書入力部で入力された文書から、特定のタグ情報を抽出するタグ情報抽出部と、上記文書入力部で入力された文書の中から、日時情報を抽出する日時情報抽出部と、上記日時情報抽出部が抽出した日時情報に基づいて、ブロックとしてのまとまり程度を示す上記特定の上記各タグの重みを求め、兄弟タグ間の類似度を求め、この求めた類似度と、上記求めたタグの重みとに応じて、タグのブロック度を求めるブロック認識部とを有するブロック自動抽出装置である。
【選択図】 図1
Description
<li>
<ol>あ</ol>
<ol>い</ol>
<ol>う</ol>
</li>
があり、上記「あ」、「い」、「う」は、互いに同一水準の情報であると考えられる。
タグtの重みwt=0 (日時情報を含まない場合) … 式(2)
とする。なお、上記式(1)と式(2)とが示す「タグtの重み」は、最下位層のタグの固まり具合(ブロック度の1種)を示す数値であり、日付情報に基づいて推定した数値である。1つのタグの中に、日付情報が多数、存在していれば、それだけ情報が分散していると考えられるので、「重み」が小さいと考える。
BiBi+1には、その並びでの出現回数がカウントされる。つまり、タグBiと、タグBi+1とは、連続しているタグである。
rel(a,b)=cos=(vec_a x vec_b)/|vec_a||vec_b| …… 式(4)
とすると、タグの並びが類似している場合は、類似度の値が1になり、タグの並びが類似していない場合は、類似度の値が0になる類似度wを定義することができる。
A…<TR><TD><TD><TD>、
B…<TR><TD><TD><TD>、
C…<TR><TD><TD></TD>
というタグの並びである場合、ブロックAとBとは、タグの並びが類似していると考え、ブロックAとCとは、タグの並びが、ブロックA、Bほどは類似せず、また、ブロックBとCとは、タグの並びが、ブロックA、Bほどは類似していないと考える。
A…(<TR><TD>,<TD><TD>)→(1,2)であり、
B…(<TR><TD>,<TD><TD>)→(1,2)であり、
C…(<TR><TD>,<TD><TD>,<TD></TD>)→(1,1,1)
である。
つまり、TABLE1を親タグとし、タグtの重みWtを計算すると、
子どもの数は、TR1、TR2、TR3の3つであり、各子どもの兄弟のタグの重みwt chが日付情報を1つずつ含むので1である。なお、タグTR1の重みは、<TR1>から</TR1>までの間、すなわち、<TR1><TD1>2003/05/09<TD1><TD2>…</TD2></TR1>の中に、日付情報が1つ出現しているので、タグの重みwt(wt ch)は1である。したがって、上記式(6)に示すように、
タグの重みWt=3×1×1×1=3になる。
つまり、子どもがTR1、TR2、TR3の3つであり、rel(ti,tj)の値が1であるので、rel(ti,tj)の組み合わせ数は、3C2=(3×2)/2=3通りであり、rel(ti,tj)の和は、1+1+1であり、タグtの重みWtは、3×1×1×1=3であり、これらを、式(5)に代入すると、上記式(3)になる。
20…タグ情報抽出部、
30…日時情報抽出部、
40…ブロック認識部。
Claims (3)
- 所定の形式に従って記述された文書から、特徴的なブロックを抽出するブロック自動抽出装置において、
文書を入力する文書入力部と;
上記文書入力部で入力された文書から、タグを抽出するタグ情報抽出部と;
上記文書入力部で入力された文書の中から、日時情報を抽出する日時情報抽出部と;
上記日時情報抽出部が抽出した日時情報に基づいて、ブロックとしてのまとまり程度を示す上記タグの重みを求め、上記兄弟タグ間の類似度を求め、この求めた類似度と、上記求めた兄弟タグの重みとに応じて、兄弟タグのブロック度を求めるブロック認識部と;
を有することを特徴とするブロック自動抽出装置。 - 所定の形式に従って記述された文書から、特徴的なブロックを抽出するブロック自動抽出方法において、
文書を入力する文書入力段階と;
上記文書入力段階で入力された文書から、タグ情報を抽出するタグ情報抽出段階と;
上記文書入力段階で入力された文書の中から、日時情報を抽出する日時情報抽出段階と;
上記日時情報抽出段階で抽出された日時情報に基づいて、ブロックとしてのまとまり程度を示す上記タグの重みを求め、上記兄弟タグ間の類似度を求め、この求めた類似度と、上記求めた兄弟タグの重みとに応じて、兄弟タグのブロック度を求めるブロック認識段階と;
を有することを特徴とするブロック自動抽出方法。 - 所定の形式に従って記述された文書から、特徴的なブロックを抽出するブロック自動抽出プログラムにおいて、
文書を入力する文書入力手順と;
上記文書入力手順で入力された文書から、タグ情報を抽出し、メモリに格納するタグ情報抽出手順と;
上記文書入力手順で入力された文書の中から、日時情報を抽出し、メモリに格納する日時情報抽出手順と;
上記日時情報抽出手順で抽出された日時情報に基づいて、ブロックとしてのまとまり程度を示す上記タグの重みを求め、上記兄弟タグ間の類似度を求め、この求めた類似度と、上記求めた兄弟タグの重みとに応じて、兄弟タグのブロック度を求め、ブロック度をメモリに格納するブロック認識手順と;
をコンピュータに実行させるプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003387165A JP2005149236A (ja) | 2003-11-17 | 2003-11-17 | ブロック自動抽出装置、ブロック自動抽出方法およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003387165A JP2005149236A (ja) | 2003-11-17 | 2003-11-17 | ブロック自動抽出装置、ブロック自動抽出方法およびプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005149236A true JP2005149236A (ja) | 2005-06-09 |
Family
ID=34694625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003387165A Pending JP2005149236A (ja) | 2003-11-17 | 2003-11-17 | ブロック自動抽出装置、ブロック自動抽出方法およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005149236A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007119567A1 (ja) * | 2006-03-31 | 2007-10-25 | Justsystems Corporation | 文書処理装置および文書処理方法 |
CN109949046A (zh) * | 2018-11-02 | 2019-06-28 | 阿里巴巴集团控股有限公司 | 风险团伙的识别方法和装置 |
-
2003
- 2003-11-17 JP JP2003387165A patent/JP2005149236A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007119567A1 (ja) * | 2006-03-31 | 2007-10-25 | Justsystems Corporation | 文書処理装置および文書処理方法 |
JP4878624B2 (ja) * | 2006-03-31 | 2012-02-15 | 株式会社ジャストシステム | 文書処理装置および文書処理方法 |
CN109949046A (zh) * | 2018-11-02 | 2019-06-28 | 阿里巴巴集团控股有限公司 | 风险团伙的识别方法和装置 |
CN109949046B (zh) * | 2018-11-02 | 2023-06-09 | 创新先进技术有限公司 | 风险团伙的识别方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2777409C (en) | System and method for text cleaning | |
Akpınar et al. | Vision based page segmentation algorithm: Extended and perceived success | |
JP5447862B2 (ja) | 単語分類システム、方法およびプログラム | |
JP5229226B2 (ja) | 情報共有システム、情報共有方法、および情報共有プログラム | |
WO2015047920A1 (en) | Title and body extraction from web page | |
JP5273735B2 (ja) | テキスト要約方法、その装置およびプログラム | |
JP6462970B1 (ja) | 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム | |
US8392820B2 (en) | Method of establishing a plain text document from a HTML document | |
CN107577663B (zh) | 一种关键短语抽取方法和装置 | |
CN112805715A (zh) | 识别实体属性关系 | |
JP4293145B2 (ja) | クチコミ情報判定方法及び装置及びプログラム | |
JP2006190229A (ja) | 意見抽出用学習装置及び意見抽出用分類装置 | |
CN106372232B (zh) | 基于人工智能的信息挖掘方法和装置 | |
Maududie et al. | An approach of web scraping on news website based on regular expression | |
JP2008225846A (ja) | 単語意味タグ付与装置および方法、プログラム並びに記録媒体 | |
JP2005149236A (ja) | ブロック自動抽出装置、ブロック自動抽出方法およびプログラム | |
JP4148247B2 (ja) | 語彙獲得方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 | |
Norabid et al. | Rule-based text extraction for multimodal Knowledge Graph | |
JP4114874B2 (ja) | ブロック自動抽出装置およびプログラム | |
JP2010244341A (ja) | 属性表現獲得方法及び装置及びプログラム | |
JP2004334382A (ja) | 構造化文書要約装置、プログラムおよび記録媒体 | |
JP2009140048A (ja) | 評判関係抽出装置、その方法およびプログラム | |
JP6707410B2 (ja) | 文献検索装置、文献検索方法およびコンピュータプログラム | |
JP6200392B2 (ja) | 情報提示装置および情報提示プログラム | |
JP2020071668A (ja) | 要約生成方法及び要約生成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060405 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090312 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090323 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090521 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090710 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090813 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20091023 |