JP2010117941A - Web文書主要コンテンツ抽出装置及びプログラム - Google Patents
Web文書主要コンテンツ抽出装置及びプログラム Download PDFInfo
- Publication number
- JP2010117941A JP2010117941A JP2008291379A JP2008291379A JP2010117941A JP 2010117941 A JP2010117941 A JP 2010117941A JP 2008291379 A JP2008291379 A JP 2008291379A JP 2008291379 A JP2008291379 A JP 2008291379A JP 2010117941 A JP2010117941 A JP 2010117941A
- Authority
- JP
- Japan
- Prior art keywords
- main content
- web document
- unit
- feature
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】本発明は、Web文書が入力されると、該Web文書を所定の分割規則に基づいてセグメントに分割し、記憶手段に格納し、分割されたセグメント毎に、主要コンテンツ判定のための特徴量を抽出し、セグメント毎に記憶手段に格納し、セグメント毎の特徴量に基づいて、機械学習アルゴリズムを用いて主要コンテンツか否かの判定を行い、主要コンテンツと判定された部位を結合して、主要コンテンツとして出力する。
【選択図】図1
Description
http://fm.goo.ne.jp/
Web文書が入力されると、該Web文書を所定の分割規則に基づいてセグメントに分割し、記憶手段160に格納する文書分割手段120と、
文書分割手段120で分割されたセグメント毎に、主要コンテンツ判定のための特徴量を抽出し、セグメント毎に記憶手段160に格納する特徴量抽出手段130と、
セグメント毎の特徴量に基づいて、機械学習アルゴリズムを用いて主要コンテンツか否かの判定を行う主要コンテンツ判定手段140と、
主要コンテンツ判定手段140で主要コンテンツと判定された部位を結合して、主要コンテンツとして出力する主要コンテンツ出力手段150と、を有する。
入力されたWeb文書に広告対象領域が存在する場合には、該広告対象領域を抽出する広告対象領域抽出手段と、
Web文書からノイズとなるタグや領域を除去するノイズ除去手段と、
ノイズ除去手段から出力されたWeb文書を、所定の分割規則を用いて分割し記憶手段に格納する分割手段と、を含む。
Web文書のHTMLを説明するコメントタグ、JavaScript、formタグ、領域、文字列を正規表現を用いて除去する。
Web文書から、
Webブラウザに表示される文字列の特徴量、
タグ情報に関する特徴量、
アンカーリンクに関する特徴量
のいずれか、または全てを抽出する抽出手段と、
抽出された特徴量を正規化する正規化手段と、
各特徴量間の比率を求め、正規化手段により正規化を行う比率計算手段を含む。
特徴量抽出手段130で抽出されたセグメント毎の特徴量について、機械学習アルゴリズムを用いて学習を行い、学習した学習モデルを用いて主要コンテンツか否かの判定を行う手段を含む。
主要コンテンツ判定手段140で主要コンテンツであると判定されたセグメントのみを結合して出力する手段を含む。
抽出手段を行う前に、HTMLタグで用いられる記号をWebブラウザ上で表示する際に用いる特殊文字、及び、該特殊文字以外のHTML特殊文字を削除する特殊文字削除手段を含む。
特徴量抽出手段130で抽出された特徴量を絞り込み、絞り込んだ特徴量モデル毎に学習モデルを作成する手段を含む。
Web文書取得・入力部110は、処理するWeb文書(データ)の入力を行う。当該Web文書取得・入力部110の構成を図5に示す。同図に示すWeb文書取得・入力部110は、ユーザから入力された主要コンテンツを抽出したいWeb文書のURL、もしくはファイルそのものを取得するデータ入力部111と、入力がURLである場合は当該URLを取得するURL入力部113と、そのURL先のWeb文書を取得するWeb文書取得部114と、Web文書そのものである場合は当該Web文書を取得するWeb文書ファイル入力部112と、Web文書の文字コードをUTF−8に変換し統一する文書コード変換部115から構成される。
Web文書分割部120は、取得した文書を分割する。図6にWeb文書分割部120の構成を示す。Web文書分割部120は、広告対象領域抽出部121、ノイズとなるタグや領域除去部122、Web文書分割処理部123から構成される。
・"<script>"タグから"</script>"タグで囲まれる領域;
・"<style>"タグから"</style>"タグで囲まれる領域;
・"<select>"タグから"</select>"タグで囲まれる領域;
・"<noscript>"タグから"</noscript>"タグで囲まれる領域;
・"<form>"タグから"</form>"タグで囲まれる領域;
・連続した空白文字列(単一の空白は除く)
・連続したタブ文字列(単一のタブは除く)
ノイズ除去部122は、以上のタグ、領域、文字列を正規表現を用いて除去する。タグ内にalt属性やclass属性が存在する場合も考えられるため、その場合はそれらを含めたタグを考慮した正規表現を用いて分割を行う(例:<style class="hoge">)。
・</div>
・<td>
・</td>
タグ内にalt属性やclass属性が存在する場合も考えられるため、その場合は、それらを含めたタグを考慮した正規表現を用いて分割を行う(例:<div class="hoge">)。以降分割されたWeb文書の一つ一つを「セグメント」と呼び、特徴量抽出と主要コンテンツか否かの判定をセグメント毎に行うものとする。
特徴量抽出部130は、記憶部160に格納されたセグメントから特徴量を抽出し、Web文書の主要コンテンツ部分の判定を行う。特徴量抽出部130の構成を図7に示す。
アンカーリンク情報特徴量抽出部131は、Web文書分割部120から出力され、記憶部160に格納されているセグメントからアンカーリンクに関する特徴量を抽出する。
あるセグメントにおいて、アンカーリンクが多数含まれているセグメントは主要コンテンツでない可能性が高い。そこで、アンカーリンク情報特徴量抽出部131では、アンカーリンクの数を特徴量として用いる。具体的には、<a href=…>…</a>タグで表されるアンカーリンクの数を特徴量とする。
各アンカーリンクの文字列が平均して多い場合、そのセグメントは、関連記事等のナビゲーションリンクである可能性が高い。また、アンカーリンクの文字列が平均して少ない場合、主要コンテンツ内に含まれるキーワード検索リンクである可能性が高い。そこで、アンカーリンク情報特徴量抽出部131は、セグメントに含まれるアンカーリンクの文字列の平均量を特徴量として用いる。アンカーリンクの文字列とは、<a href='…'…>○○○</a>の○○○の部分に該当する。この特徴量も、以下に説明する特徴量正規化部134において、文字列の量を正規化して特徴量とする手法と、文字列の絶対値を用いて特徴量とする二つを実行し、最終的な文字列の量の特徴量とし、メモリ136に格納する。
セグメント内に含まれるアンカーリンクの文字列の合計量が多い場合、そのセグメントはナビゲーションリンクである可能性が高い。そこで、アンカーリンク情報特徴量抽出部131は、セグメント内に含まれるアンカーリンクの文字列の合計量を特徴量として用いる。アンカーリンクの文字列とは、<a href='…'>○○○</a>の○○○の部分に該当する。この特徴も以下に説明する特徴量正規化部134において、文字列の量を正規化して特徴量とする手法と、文字列の絶対値を用いて特徴量とする二つを実行し、最終的な文字列の量の特徴量とし、メモリ136に格納する。
アンカーリンク先のURL文字列が非常に長い場合、そのセグメントは広告である可能性が高い。そこで、セグメント内で最大長のアンカーリンク先のURLの文字列を特徴量として用いる。ここで述べるアンカーリンク先のURL文字列とは、<a href='△△△'…>…</a>の△△△の部分に該当する。この特徴量も以下に説明する特徴量正規化部134において、文字列の量を正規化して特徴量とする手法と、文字列の絶対値を用いて特徴量とする二つを実行し、最終的な文字列の量の特徴量とし、メモリ136に格納する。
広告に関するURLを含むアンカーリンクは特徴的な文字列を含む可能性が高い。例えば、「adclick」、「adnet」、「banner」等がそれにあたる。そこで、アンカーリンク情報特徴量抽出部131は、このような広告となりやすい文字列を含んだルURLを含むアンカーが存在する場合、特徴量を1とし、存在しない場合を0とする特徴量を抽出し、メモリ136に格納する。広告になりやすい文字列は、広告除去用のFirefox用アドインであるAdblock plugin等のサイトに記載されているため、それを用いる。
タグ情報特徴量抽出部132は、HTMLタグ等のタグ情報に関する特徴量を抽出する。
あるセグメントにおいて、Web文書で表示される文字列が多い場合、テキストに関するHTMLタグが多く含まれる。また、ブログ等のCGMにおいては、Web文書で表示される文字列は少ないが、ユーザが改行タグを多用する事例が多く見られる。そこで、タグ情報特徴量抽出部132は、テキストに関するHTMLタグの数を特徴量として用いる。この特徴量も以下に説明する特徴量正規化部134において、文字列の量を正規化して特徴量とする手法と、文字列の絶対値を用いて特徴量とする二つを実行し、最終的な文字列の量の特徴量とし、メモリ136に格納する。
・</p>
・<br>
・</br>
・<font>
・</font>
タグ内にsize属性やclass属性が存在する場合も考えられるため、その場合は、それらを含めたタグを考慮した正規表現を用いてカウントを行う(例:<font size="+1">)。
Web文書で表示される文字列が集中して記述してあるセグメントは、テキスト系のタグが多く存在すると同時に、テキスト系のHTMLタグが連続して出現する。ここでいう、「連続して出現する」というのは、他のアンカーリンク等のHTMLタグが間に出現しないということである。そこで、タグ情報特徴量抽出部132は、(1)で述べたテキスト系のHMTLタグの連続出現数を特徴量とする。この特徴量も以下に説明する特徴量正規化部134において、文字列の量を正規化して特徴量とする手法と、文字列の絶対値を用いて特徴量とする二つを実行し、最終的な文字列の量の特徴量とし、メモリ136に格納する。
あるセグメント内において、リンクリストタグが多い場合、そのセグメントにはナビゲーションリンク等の多くのアンカーリンクが存在し、そのセグメントは主要コンテンツとならない可能性が高い。そこで、タグ情報特徴量抽出部132は、リンクリストタグの数を特徴量とする。この特徴量も、以下に説明する特徴量正規化部134において、文字列の量を正規化して特徴量とする手法と、文字列の絶対値を用いて特徴量とする二つを実行し、最終的な文字列の量の特徴量とし、メモリ136に格納する。
・<ul>
・<dl>
・<dd>
・<ol>
タグ内にalt属性やclass属性が存在する場合も考えられるため、その場合はそれらを含めたタグを考慮した正規表現を用いてカウントを行う(例:<font class="hoge">)。
あるセグメント内において、Webで表示されない文字列(HTMLタグを含む)が多い場合、そのセグメントは広告当の主要コンテンツ出ない可能性が高い。そこで、Web文書で表示される文字列以外の文字列(HTMLタグを含む)量を特徴量とする。この特徴量も、以下に説明する特徴量正規化部134において、文字列の量を正規化して特徴量とする手法と、文字列の絶対値を用いて特徴量とする二つを実行し、最終的な文字列の量の特徴量とし、メモリ136に格納する。
以下では、Webブラウザで表示される文字列に関する特徴量について述べる。ここで述べる「文字列」とは、HMTLタグ等のWebブラウザで表示されない文字列を含まないものとする。
一般的にWeb文書の主要コンテンツ部分は、主要コンテンツでない部分と比較すると多くの文字列が含まれている。また、全体的に文字列の少ないWeb文書においても同様のことが言える。そのため、当該文字列特徴量抽出部133では、分割されたWeb文書に含まれる文字列の数を特徴量とする。そして、以下に説明する特徴量正規化部134において、文字列の量を正規化して特徴量とする手法と、文字列の絶対値を用いて特徴量とする二つを実行し、最終的な文字列の量の特徴量とし、メモリ136に格納する。
特徴量正規化部134では、メモリ136に格納された上記の各特徴量について、以下の方法により正規化する。
a)文字列の量の正規化を行い特徴量とする手法:
全てのセグメントにおいて最大の文字列の量を持つセグメントの特徴量を"1"とする正規化を行う。例えば、全てのセグメントにおいて最大の文字列の量が"200"で、あるセグメント内の文字列の量が"100"だった場合には、そのセグメントの文字列の量の特徴量は"0・5"となる。このような正規化を行うことで、全体的に文字列の少ないWeb文書においても主要コンテンツの抽出が可能になる。
上記のa)で述べた正規化を行い特徴量とする方法は、全体的に文字列の少ないWeb文書において有効であったが、正規化を行うことで、全体的に文字列の量が多く、主要コンテンツ部分のセグメント間の文字列の量の差が大きい場合に不都合が生じる。例えば、全てのセグメントにおいて最大の文字列の量が"1000"で、あるセグメント内の文字列の量が"100"だった場合、そのセグメントの文字列の量の特徴量は"0.1"になる。文字列の量としては多いはずだが、正規化を行うことで、このような弊害が生じる。そこで、文字列の絶対値を用いて特徴量とする手法を行う必要がある。
Web広告等のノイズとなりやすいセグメントは、文字列の量は多いが、句読点の数が少ない傾向になる。そのため、句読点の数を特徴とする。具体的には、特徴量正規下部134は、セグメント内の文字列に含まれる「、」、「,」、「。」、「.」、「!」、「・」、「?」、「…」の数を特徴量としてカウントする。この特徴量も文字列の量で述べた正規化による特徴量と、絶対値による特徴量の2通りを算出する。算出方法については、(1)の文字列の項で述べた手法と同じものを用いる。
特徴量の比率特徴量抽出部(以下、「比率特徴量抽出部」と記す)135は、メモリ136に格納されている前述のアンカーリンク情報特徴量、タグ情報特徴量、Web文書で表示される文字列特徴量間の比率を用いた特徴量を求める。
テキスト系のタグが多数あり、また、テキスト系のタグの連続出現数が多いセグメントは、テキストが密に書かれているため、主要コンテンツである可能性が高い。しかしながら、テキスト系のタグは多数あるが、テキスト系のタグの連続出現数が少ないセグメントは、セグメントのサイズが大きいだけで、主要コンテンツでない可能性が高いと言える。そこで、比率特徴量抽出部135は、テキスト系のタグ数とテキスト系のタグの連続出現数の比率を特徴量として用いる。
あるセグメント内において、Webで表示される文字列が多い場合は主要コンテンツとなる可能性が高いが、同じセグメント内において、HTMLタグ等のタグが多い場合もある。この場合、上記の(1)の「テキスト系のタグ数とテキスト系のタグの連続出現数の比率」の項で述べたように、セグメントサイズが大きいだけで、主要コンテンツでない可能性がある。そこで比率特徴量抽出部135は、Webで表示される文字列とタグの比率を特徴量として用いることで、このような場合に対処する。
あるセグメント内において、アンカーリンクの数や、リンクリストタグの数が多ければ多いほど、そのセグメントは主要コンテンツでない可能性が高いが、セグメントが広いためにこれらの特徴量が偶然高くなってしまう場合も考えられる。そこで、比率特徴量抽出部135は、アンカーリンクの数とリンクリストタグの数の比率を特徴量として用いる。
主要コンテンツ判定部140は、上記の特徴量抽出部130で抽出された特徴量を用いて、主要コンテンツか否かを判定する。主要コンテンツ判定部140の構成を図8に示す。
主要コンテンツ出力部150は、主要コンテンツ判定部140にて、主要コンテンツか否かの判定が行われた後に、学習器によって主要コンテンツと判定されたセグメントのみを結合して最終出力するとする。
精度向上のために、特徴量抽出部130において特徴量を抽出する事前処理として、不要文字列等を除去する手法が有効である。
・<
・>
・&
・«
・&raquo;
これらの文字列は、HTMLタグ等で用いる記号をWebブラウザ上で表示する際に用いる特殊文字である。また、上記で挙げた特殊文字以外のHTML特殊文字も削除の対象とする。特殊文字は、実際にWebブラウザ上で表示される文字列に対して、文字列の量が多いため、学習の際のノイズとなりやすい。
110 Web文書取得・入力部
111 データ入力部
112 Web文書ファイル入力部
113 URL入力部
114 Web文書取得部
115 文字コード変換部
120 文書分割手段、Web文書分割部
121 広告対象領域抽出部
122 ノイズとなるタグや領域除去部
123 Web文書分割処理部
130 特徴量抽出手段、特徴量抽出部
131 アンカーリンク情報特徴量抽出部
132 タグ情報特徴量抽出部
133 Web文書で表示される文字列特徴量抽出部
134 特徴量正規化部
135 特徴量の比率特徴量抽出部
136 メモリ
140 主要コンテンツ判定手段、主要コンテンツ判定部
141 特徴量入力部
142 テキスト判定部
143 主要コンテンツ判定処理部
150 主要コンテンツ出力手段、主要コンテンツ出力部
151 タグ付きテキスト出力部
152 タグなしテキスト出力部
153 データ出力部
160 記憶手段、記憶部
Claims (9)
- Web文書の主要コンテンツを抽出するWeb文書主要コンテンツ抽出装置であって、
Web文書が入力されると、該Web文書を所定の分割規則に基づいてセグメントに分割し、記憶手段に格納する文書分割手段と、
前記文書分割手段で分割された前記セグメント毎に、主要コンテンツ判定のための特徴量を抽出し、セグメント毎に前記記憶手段に格納する特徴量抽出手段と、
前記セグメント毎の前記特徴量に基づいて、機械学習アルゴリズムを用いて主要コンテンツか否かの判定を行う主要コンテンツ判定手段と、
前記主要コンテンツ判定手段で主要コンテンツと判定された部位を結合して、主要コンテンツとして出力する主要コンテンツ出力手段と、
を有することを特徴とするWeb文書主要コンテンツ抽出装置。 - 前記文書分割手段は、
入力された前記Web文書に広告対象領域が存在する場合には、該広告対象領域を抽出する広告対象領域抽出手段と、
前記Web文書からノイズとなるタグや領域を除去するノイズ除去手段と、
前記ノイズ除去手段から出力されたWeb文書を、前記所定の分割規則を用いて分割し前記記憶手段に格納する分割手段と、
を含む請求項1記載のWeb文書主要コンテンツ抽出装置。 - 前記ノイズ除去手段は、
前記Web文書のHTMLを説明するコメントタグ、JavaScript、formタグ、領域、文字列を正規表現を用いて除去する
請求項2記載のWeb文書主要コンテンツ抽出装置。 - 前記特徴量抽出手段は、
前記Web文書から、
Webブラウザに表示される文字列の特徴量、
タグ情報に関する特徴量、
アンカーリンクに関する特徴量
のいずれか、または全てを抽出する抽出手段と、
抽出された特徴量を正規化する正規化手段と、
各特徴量間の比率を求め、前記正規化手段により正規化を行う比率計算手段を含む
請求項1記載のWeb文書主要コンテンツ抽出装置。 - 前記主要コンテンツ判定手段は、
前記特徴量抽出手段で抽出されたセグメント毎の特徴量について、機械学習アルゴリズムを用いて学習を行い、学習した学習モデルを用いて主要コンテンツか否かの判定を行う手段を含む
請求項1記載のWeb文書主要コンテンツ抽出装置。 - 前記主要コンテンツ出力手段は、
前記主要コンテンツ判定手段で主要コンテンツであると判定されたセグメントのみを結合して出力する手段を含む
請求項1記載のWeb文書主要コンテンツ抽出装置。 - 前記特徴量抽出手段は、
前記抽出手段を行う前に、HTMLタグで用いられる記号をWebブラウザ上で表示する際に用いる特殊文字、及び、該特殊文字以外のHTML特殊文字を削除する特殊文字削除手段を含む
請求項4記載のWeb文書主要コンテンツ抽出装置。 - 前記主要コンテンツ判定手段は、
前記特徴量抽出手段で抽出された特徴量を絞り込み、絞り込んだ特徴量モデル毎に学習モデルを作成する手段を含む
請求項5記載のWeb文書主要コンテンツ抽出装置。 - 請求項1乃至8のいずれか1項に記載のWeb文書主要コンテンツ抽出装置を構成する各手段としてコンピュータを機能させるためのWeb文書主要コンテンツ抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008291379A JP5317638B2 (ja) | 2008-11-13 | 2008-11-13 | Web文書主要コンテンツ抽出装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008291379A JP5317638B2 (ja) | 2008-11-13 | 2008-11-13 | Web文書主要コンテンツ抽出装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010117941A true JP2010117941A (ja) | 2010-05-27 |
JP5317638B2 JP5317638B2 (ja) | 2013-10-16 |
Family
ID=42305574
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008291379A Expired - Fee Related JP5317638B2 (ja) | 2008-11-13 | 2008-11-13 | Web文書主要コンテンツ抽出装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5317638B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012018667A (ja) * | 2010-07-07 | 2012-01-26 | Nhn Corp | テキストパターン抽出を用いてWeb文書をリファインするための方法、システム及びコンピュータ読み出し可能記録媒体 |
WO2015016133A1 (ja) | 2013-07-30 | 2015-02-05 | 日本電信電話株式会社 | 情報管理装置及び情報管理方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1057541C (zh) * | 1997-03-24 | 2000-10-18 | 化学工业部黎明化工研究院 | 双巯基羧酸季胺盐二烷基锡化合物及其制备方法和用途 |
KR101860218B1 (ko) * | 2016-10-12 | 2018-05-21 | 배재대학교 산학협력단 | 빅 데이터 기반 질병 키워드 추천 방법 및 시스템, 그리고 이를 포함하는 질병 정보 제공 방법 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08287189A (ja) * | 1995-04-18 | 1996-11-01 | Ricoh Co Ltd | 文書処理装置 |
JPH10222520A (ja) * | 1997-01-31 | 1998-08-21 | Toshiba Corp | 電子化文書処理装置 |
JPH10254900A (ja) * | 1997-03-14 | 1998-09-25 | Omron Corp | 自動文書要約装置及び方法 |
JP2002163276A (ja) * | 2000-11-27 | 2002-06-07 | Nec Corp | 文書要約システム及び文書要約方法 |
JP2003242166A (ja) * | 2002-02-20 | 2003-08-29 | Victor Co Of Japan Ltd | 情報抽出方法、情報検索方法及び情報抽出コンピュータプログラム |
JP2004086843A (ja) * | 2002-06-27 | 2004-03-18 | Oki Electric Ind Co Ltd | 情報抽出装置および方法 |
JP2005258676A (ja) * | 2004-03-10 | 2005-09-22 | Seiko Epson Corp | 文書出力装置及びその制御方法 |
-
2008
- 2008-11-13 JP JP2008291379A patent/JP5317638B2/ja not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08287189A (ja) * | 1995-04-18 | 1996-11-01 | Ricoh Co Ltd | 文書処理装置 |
JPH10222520A (ja) * | 1997-01-31 | 1998-08-21 | Toshiba Corp | 電子化文書処理装置 |
JPH10254900A (ja) * | 1997-03-14 | 1998-09-25 | Omron Corp | 自動文書要約装置及び方法 |
JP2002163276A (ja) * | 2000-11-27 | 2002-06-07 | Nec Corp | 文書要約システム及び文書要約方法 |
JP2003242166A (ja) * | 2002-02-20 | 2003-08-29 | Victor Co Of Japan Ltd | 情報抽出方法、情報検索方法及び情報抽出コンピュータプログラム |
JP2004086843A (ja) * | 2002-06-27 | 2004-03-18 | Oki Electric Ind Co Ltd | 情報抽出装置および方法 |
JP2005258676A (ja) * | 2004-03-10 | 2005-09-22 | Seiko Epson Corp | 文書出力装置及びその制御方法 |
Non-Patent Citations (2)
Title |
---|
CSNG200301547001; 奥村 学,難波 英嗣: 'テキスト自動要約に関する研究動向(巻頭言に代えて)' 自然言語処理 Vol.6,No.6, 19990710, PP.1-26., 言語処理学会 * |
JPN6012060684; 奥村 学,難波 英嗣: 'テキスト自動要約に関する研究動向(巻頭言に代えて)' 自然言語処理 Vol.6,No.6, 19990710, PP.1-26., 言語処理学会 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012018667A (ja) * | 2010-07-07 | 2012-01-26 | Nhn Corp | テキストパターン抽出を用いてWeb文書をリファインするための方法、システム及びコンピュータ読み出し可能記録媒体 |
WO2015016133A1 (ja) | 2013-07-30 | 2015-02-05 | 日本電信電話株式会社 | 情報管理装置及び情報管理方法 |
Also Published As
Publication number | Publication date |
---|---|
JP5317638B2 (ja) | 2013-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8630972B2 (en) | Providing context for web articles | |
US8073865B2 (en) | System and method for content extraction from unstructured sources | |
JP5469244B2 (ja) | 選択的なコンテンツ抽出 | |
JP5143057B2 (ja) | 重要キーワード抽出装置及び方法及びプログラム | |
US7987417B2 (en) | System and method for detecting a web page template | |
US20110246486A1 (en) | Methods and Systems for Extracting Domain Phrases | |
JP2009238115A (ja) | 情報推薦装置および情報推薦方法 | |
US20200004792A1 (en) | Automated website data collection method | |
JPWO2009096523A1 (ja) | 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム | |
WO2017008448A1 (zh) | 一种网页核心内容提取方法 | |
JPWO2019224891A1 (ja) | 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム | |
Uzun et al. | An effective and efficient Web content extractor for optimizing the crawling process | |
JP5317638B2 (ja) | Web文書主要コンテンツ抽出装置及びプログラム | |
JP5427694B2 (ja) | 関連コンテンツ提示装置及びプログラム | |
JP2014215911A (ja) | 注目領域推定装置、方法およびプログラム | |
JP6621514B1 (ja) | 要約作成装置、要約作成方法、及びプログラム | |
Lin et al. | Combining a segmentation-like approach and a density-based approach in content extraction | |
JP2019200784A (ja) | 分析方法、分析装置及び分析プログラム | |
JP5379627B2 (ja) | 検索制御装置、検索制御方法、及びプログラム | |
JP2010272006A (ja) | 関係抽出装置、関係抽出方法、及びプログラム | |
JP5180894B2 (ja) | 属性表現獲得方法及び装置及びプログラム | |
JP4959032B1 (ja) | ウェブページ解析装置およびウェブページ解析用プログラム | |
JP2009265770A (ja) | 重要文提示システム | |
JP6173990B2 (ja) | 検索支援装置、方法およびプログラム | |
CN109388665B (zh) | 作者关系在线挖掘方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110223 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121115 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121120 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130117 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130702 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130709 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |