JP4114874B2 - ブロック自動抽出装置およびプログラム - Google Patents
ブロック自動抽出装置およびプログラム Download PDFInfo
- Publication number
- JP4114874B2 JP4114874B2 JP2004141726A JP2004141726A JP4114874B2 JP 4114874 B2 JP4114874 B2 JP 4114874B2 JP 2004141726 A JP2004141726 A JP 2004141726A JP 2004141726 A JP2004141726 A JP 2004141726A JP 4114874 B2 JP4114874 B2 JP 4114874B2
- Authority
- JP
- Japan
- Prior art keywords
- tag
- block
- tags
- child
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
「3/22 パソコンを買った(1)」、
「3/23 新しい本を買った。面白かった(2)」、
「3/26 デジカメが故障した。修理に持って行った(3)」
等、様々な話題が存在する場合がある。なお、上記、(1)(2)(3)は、説明用のラベルであるが、上記ラベルで挟まれている文書を、「ブロック」と呼ぶ。
<li>
<ol>あ</ol>
<ol>い</ol>
<ol>う</ol>
</li>
のように記述され、上記情報「あ」、「い」、「う」は、互いに同一水準の情報であり、すなわち同一の兄弟関係と考えることができる。
wt=0(日時情報を含まない場合) …式(2)
なお、上記「日時情報」は、各タグ内に含まれる日時情報である。ここで、上記「タグ内に含まれる日時情報」と記載したのは、HTMLタグは、基本的に、開始タグ(<…>)と終了タグ(</…>)とであり、開始タグとこの開始タグに対応する終了タグとが、文字列を挟み、上記文字列として「日時情報」が、開始タグと終了タグとに挟まれているからである。
式(3)において、vi kは、2つの子供タグで構成されているパターンchi kchi k+1の出現回数である。 …(4)
たとえば、A、B、Cが、タグTの子供タグであるとし、「ABCBCA」について考える。子供タグの並びのパターン(ペア)としては、要素「AB」が1回、要素「BC」が2回、要素「CB」が1回、要素「CA」が1回であるから、これから生成される特徴ベクトルvecTは、
vecT=(1,2,1,1) …式(5)
である。ただし、式(5)の右辺における各要素は、(AB,BC,CB,CA)におけるそれぞれの出現回数である。これを用いて、タグi,jの類似度rel(i,j)を、
rel(i,j)=veci・vecj/(|veci||vecj|) …式(6)
とする。式(6)の右辺における分子は、ベクトルの内積であり、その分母は、各ベクトルの大きさを掛け合わせたものである。つまり、式(6)は、特徴ベクトルveci,vecjの成す角θを利用して、三角関数のcosθを計算したものと同値である。
<li>
<ol>10/10</ol>
<ol>あああ</ol>
<ol>10/11</ol>
<ol>いいい</ol>
</li>
と記述されていたHTMLファイルが存在する場合、i番目のolタグとi+1番目のolタグとのペアによって、1つのブロックを構成する。このようなブロックを、1つのブロックとして認識するために、タグtにn個の子供タグがある場合、まず、n個の子供タグ間でタグtのブロック群度を計算し、次に、i番目とi+1番目とを1つのブロックとして、n/2個の子供タグ間で計算し……という処理を繰返し、ブロック群度が最も大きな値となるケース(組み合わせ)を、ブロックおよびブロック群として抽出する。
<li>
<ol>io/10</ol>
<ol>あああ</ol>
<ol><H2>ここは広告</H2></ol>
<ol>10/11</ol>
<ol>いいい</ol>
</li>
と記述されているHTMLファイルが存在する場合、3番目のolタグが、1番目、2番目のolタグによるブロック候補とは異なり、また、4番目、5番目のolタグによるブロック候補とも異なる。このように、類似度が低い子供タグは、ブロック群抽出時に悪い影響を与える。したがって、他のブロック候補(子供タグ)との類似度がある閾値以下であるブロック候補(子供タグ)を、ブロック抽出時に、ブロックとして無視してブロック群度を計算する。このようにすることによって、広告のブロック等、不要なタグに対応することができる。
次に、具体例を用いて、実施例1における処理について説明する。
rel(TD1,TD2)=1 …式(8)
である。
vecTR1=(TD/TD,TDTD)=(2,1) …式(9)
vecTR2=(TD/TD,/TDTD,TDA,A/A,/A/TD)
=(1,1,1,1,1) …式(10)
vecTR3=(TD/TD,TDTD)=(2,1) …式(11)
vecTR4=(TD/TD,TDTD)=(2,1) …式(12)
となる。
rel(TRx,TR2)=3/5=0.6 …式(13)
rel(TRx,TRy)=1/5=1 …式(14)
となる(ただし、x,y=1,3,4)。
blocktable=3/4×2/4(4−1)・(0.6+1+1+0.6+0.6+1) …式(15)
=0.6 …式(16)
となる。
block(TABLE)=3/3×2/3(3−1)・(1+1+1) …式(17)
=1 …式(18)
であり、この組み合わせの方が、ブロック群度は高くなる。
vecTR1=(TD/TD,/TDTD,TDA,A/A,/A/TD)=(3,3,1,1,1) …式(19)
vecTR3=(TD/TD,/TDTD)=(4,3) …式(20)
rel(TR1,TR3)=√21/5=0.917 …式(21)
である。
block(TABLE)=1+0.5/2×2/2(2−1)・0.917…式(22)
=0.688 …式(23)
となり、この場合、上記手法[2]のみを用いた場合の方が、ブロック群度の値が高い。
11…文書入力部、
12…タグ情報抽出部、
13…特徴情報抽出部、
14…ブロック認識部。
Claims (5)
- 所定の形式に従って記述された文書から、特徴的なブロックを抽出するブロック自動抽出装置において、
文書を入力する文書入力部と;
上記文書入力部で入力された文書から、所定のタグの情報を抽出するタグ情報抽出部と;
上記文書入力部で入力された文書から、ブロックを構成するに必須な特徴情報を、各タグについて抽出する特徴情報抽出部と;
上記タグ情報抽出部が抽出した上記所定のタグと、上記特徴情報とを用いて、上記入力された文書中に繰返し出現するブロックを抽出する繰り返し出現ブロック認識部と;
を有し、
上記繰り返し出現ブロック認識部は、
各タグの重みを、上記特徴情報抽出部で抽出された特徴情報の数量に基づいて計算する手段と;
各タグについて、その子供タグの前後の並びパターンの出現回数を要素とする特徴ベクトルを求め、特徴ベクトルを用いて2つのタグ間の類似度をそれぞれ求める手段と;
各タグについて、その子供タグの重みと子供タグ間の類似度とに基づいて、ブロック群度を求める手段と;
ブロック群度が閾値以上であるブロックを抽出する手段と;
からなることを特徴とするブロック自動抽出装置。 - 請求項1において、
上記ブロック認識部において、タグのブロック群度を計算する際に、計算対象のタグの子供タグの集合の中で、他の子供タグとの類似度が閾値以下である子供タグを除外して計算することを特徴とするブロック自動抽出装置。 - 請求項1において、
上記ブロック認識部において、上記タグのブロック群度を計算する場合、計算対象のタグの子供タグの集合の中で、複数の子供タグを組み合わせブロックとし、各組み合わせブロックについて、その重みと特徴ベクトルとを求めるとともに、組み合わせブロック間の類似度を求め、組み合わせブロックの重みと組み合わせブロック間の類似度とに基づいて、ブロック群度を求めることを特徴とするブロック自動抽出装置。 - 請求項1〜請求項3のいずれか1項において、
上記ブロック群度は、重みの平均値と、類似度の平均値との乗算の結果であることを特徴とするブロック自動抽出装置。 - 請求項1〜請求項4のいずれか1項に記載のブロック自動抽出装置を構成する各手段としてコンピュータを機能させるブロック自動抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004141726A JP4114874B2 (ja) | 2004-05-11 | 2004-05-11 | ブロック自動抽出装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004141726A JP4114874B2 (ja) | 2004-05-11 | 2004-05-11 | ブロック自動抽出装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005322179A JP2005322179A (ja) | 2005-11-17 |
JP4114874B2 true JP4114874B2 (ja) | 2008-07-09 |
Family
ID=35469402
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004141726A Expired - Fee Related JP4114874B2 (ja) | 2004-05-11 | 2004-05-11 | ブロック自動抽出装置およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4114874B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5669611B2 (ja) * | 2011-02-16 | 2015-02-12 | 田中 成典 | グループ化装置およびエレメント抽出装置 |
-
2004
- 2004-05-11 JP JP2004141726A patent/JP4114874B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005322179A (ja) | 2005-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ahmed et al. | Detection of online fake news using n-gram analysis and machine learning techniques | |
Xu et al. | Using deep linguistic features for finding deceptive opinion spam | |
CN102737013B (zh) | 基于依存关系来识别语句情感的设备和方法 | |
US20200004792A1 (en) | Automated website data collection method | |
JP5447862B2 (ja) | 単語分類システム、方法およびプログラム | |
CN110390018A (zh) | 一种基于lstm的社交网络评论生成方法 | |
CN104899322A (zh) | 搜索引擎及其实现方法 | |
CN103049435A (zh) | 文本细粒度情感分析方法及装置 | |
Marinho et al. | Authorship attribution via network motifs identification | |
CN102227724A (zh) | 对于音译的机器学习 | |
Qian et al. | Generating accurate caption units for figure captioning | |
CN110096681B (zh) | 合同条款分析方法、装置、设备及可读存储介质 | |
CN105843796A (zh) | 一种微博情感倾向分析方法及装置 | |
US20130282727A1 (en) | Unexpectedness determination system, unexpectedness determination method and program | |
Veena et al. | An effective way of word-level language identification for code-mixed facebook comments using word-embedding via character-embedding | |
Anoop et al. | Leveraging heterogeneous data for fake news detection | |
Rodrigo-Ginés et al. | A systematic review on media bias detection: What is media bias, how it is expressed, and how to detect it | |
JP4293145B2 (ja) | クチコミ情報判定方法及び装置及びプログラム | |
CN116151233A (zh) | 数据标注、生成方法、模型训练方法、设备和介质 | |
Wu et al. | Price tag: towards semi-automatically discovery tactics, techniques and procedures of E-commerce cyber threat intelligence | |
Modi et al. | Sentiment analysis of Twitter feeds using flask environment: A superior application of data analysis | |
CN114722174A (zh) | 提词方法和装置、电子设备及存储介质 | |
CN107145591A (zh) | 一种基于标题的网页有效元数据内容提取方法 | |
JP2009237640A (ja) | 情報抽出装置、情報抽出方法および情報抽出プログラム | |
Yao et al. | A unified approach to researcher profiling |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060731 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080111 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080118 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080317 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20080411 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20080411 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110425 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4114874 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110425 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120425 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130425 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140425 Year of fee payment: 6 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |