JP5143057B2 - 重要キーワード抽出装置及び方法及びプログラム - Google Patents
重要キーワード抽出装置及び方法及びプログラム Download PDFInfo
- Publication number
- JP5143057B2 JP5143057B2 JP2009048550A JP2009048550A JP5143057B2 JP 5143057 B2 JP5143057 B2 JP 5143057B2 JP 2009048550 A JP2009048550 A JP 2009048550A JP 2009048550 A JP2009048550 A JP 2009048550A JP 5143057 B2 JP5143057 B2 JP 5143057B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- important
- importance
- feature amount
- main content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段10と、
オンライン百科辞典(例えば、Wikipedia(登録商標))に代表される文書集合内において一意の見出し語を持つ文書で、かつ、文書集合内において引用関係もしくは参照関係を持つ文書集合(以下、辞典文書集合と記す)の見出し語を形態素解析用の辞書として登録しているキーワード辞書101を参照して、主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段2と、
Web文書内の重要キーワード候補に重みを付ける出現頻度算出手段3と、
知名度や話題性が高く、内容的に興味深く、キーワードについて語る際に様々な話題が挙がる情報量が豊富なキーワードの重要度が高くなるように重要キーワード候補の固有重要度を算出し、第1の記憶手段105に格納するキーワード重要度算出手段4と、
重要キーワード候補のWeb文書中の位置に基づいて出現位置キーワード重要度を求め、第2の記憶手段106に格納する位置情報算出手段5と、
出現頻度算出手段3による重要キーワード候補の重み、第1の記憶手段105に格納されている重要キーワード候補の固有重要度及び第2の記憶手段106に格納されている出現位置キーワード重要度を乗算した値に基づいて、最終重要度付きのキーワード集合を出力するキーワード出力手段6と、を有し、
主要コンテンツ抽出手段10は、
Web文書を所定の分割規則に基づいてセグメントに分割するWeb文書分割手段12と、
セグメント毎に主要コンテンツ判定のための特徴量を抽出する特徴量抽出手段13と、
セグメント毎の特徴量に基づいて機械学習アルゴリズムを用いて主要コンテンツか否かの判定を行う主要コンテンツ判定手段14と、
主要コンテンツと判断された部位を結合して主要コンテンツとして出力する主要コンテンツ出力手段15を含み、
主要コンテンツ抽出手段10の特徴量抽出手段13は、
Web文書で表示される文字列の特徴量、タグ情報の特徴量、アンカーリンク情報の特徴量を抽出し、各特徴量間の比率を用いて最終的な特徴量とする手段を含み、
出現頻度算出手段3は、
検索エンジンが収集したWeb文書集合における出現確率を考慮した重みであるWebIDFを用いて重要キーワード候補に重みを付ける手段、
または、
重要キーワード候補のWeb文書内の出現頻度を求め、該出現頻度と文書集合内での出現分布に基づいて各重要キーワード候補に重み付けを行うBM25を用いて該重要キーワード候補に重みを付ける手段、のいずれかを有する。
形態素解析手段の形態素解析結果から得られた形態素の固有名詞を含む重要キーワード候補の出現頻度を用いて、該重要キーワード候補に重みを付ける手段を含む。
辞典文書集合内のリンク構造を用いて、重要キーワード候補の固有重要度を求める手段を含む。
検索エンジンに投入された回数が多いキーワードほど、重要なキーワードとなるような値を用いて、重要キーワード候補の固有重要度を求める手段を含む。
主要コンテンツ抽出手段が、Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出ステップ(ステップ1)と、
重要キーワード候補抽出手段が、オンライン百科辞典(例えば、Wikipedia(登録商標))に代表される文書集合内において一意の見出し語を持つ文書で、かつ、文書集合内において引用関係もしくは参照関係を持つ文書集合(以下、辞典文書集合と記す)の見出し語を形態素解析用の辞書として登録しているキーワード辞書を参照して、主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出ステップ(ステップ2)と、
出現頻度算出手段が、Web文書内の重要キーワード候補に重みを付ける出現頻度算出ステップ(ステップ3)と、
キーワード重要度算出手段が、知名度や話題性が高く、キーワードについて語る際に様々な話題が挙がる情報量が豊富なキーワードの重要度が高くなるように重要キーワード候補の固有重要度を算出し、第1の記憶手段に格納するキーワード重要度算出ステップ(ステップ4)と、
位置情報算出手段が、重要キーワード候補のWeb文書中の位置に基づいて出現位置キーワード重要度を求め、第2の記憶手段に格納する位置情報算出ステップ(ステップ5)と、
キーワード出力手段が、出現頻度算出ステップによる重要キーワードの重み、第1の記憶手段に格納されている重要キーワード候補の固有重要度及び第2の記憶手段に格納されている出現位置キーワード重要度を乗算した値に基づいて、最終重要度付きのキーワード集合を出力するキーワード出力ステップ(ステップ6)と、を行い、
主要コンテンツ抽出ステップ(ステップ1)では、
Web文書を所定の分割規則に基づいてセグメントに分割するWeb文書分割ステップと、
セグメント毎に主要コンテンツ判定のための特徴量を抽出する特徴量抽出ステップと、
セグメント毎の特徴量に基づいて機械学習アルゴリズムを用いて主要コンテンツか否かを判定する主要コンテンツ判定ステップと、
主要コンテンツと判断された部位を結合して主要コンテンツとして出力する主要コンテンツ出力ステップと、を含み、
特徴量抽出ステップでは、
Web文書で表示される文字列の特徴量、タグ情報の特徴量、アンカーリンク情報の特徴量を抽出し、各特徴量間の比率を用いて最終的な特徴量とするステップを含み、
出現頻度算出ステップ(ステップ3)では、
検索エンジンが収集したWeb文書集合における出現確率を考慮した重みであるWebIDFを用いて重要キーワード候補に重みを付けるステップ、
または、
重要キーワード候補のWeb文書内の出現頻度を求め、該出現頻度と文書集合内での出現分布に基づいて各重要キーワード候補に重み付けを行うBM25を用いて該重要キーワード候補に重みを付けるステップ、
のいずれかを行う。
形態素解析手段の形態素解析結果から得られた形態素の固有名詞を含む重要キーワード候補の出現頻度を用いて、該重要キーワード候補に重みを付ける。
辞典文書集合内のリンク構造を用いて、重要キーワード候補の固有重要度を求める。
検索エンジンに投入された回数が多いキーワードほど、重要なキーワードとなるような値を用いて、重要キーワード候補の固有重要度を求める。
当該処理は、文書入力部1の主要コンテンツ抽出部10が行う処理である。
文書入力部1の主要コンテンツ抽出部10は、図5に示すように、Web文書取得・入力部11、Web文書分割部12、特徴量抽出部13、主要コンテンツ判定部14、主要コンテンツ出力部15から構成される。ここで、特徴量抽出部13と主要コンテンツ判定部14は、Web文書分割部12で分割されたWeb文書毎に処理を行う。
Web文書の入力は、Web文書取得・入力部11で行われる処理である。
Web文書の分割は、Web文書分割部12で行われる処理である。
・"<script>"タグから、"</script>"タグで囲まれる領域;
・"<style>"タグから、"</style>"タグで囲まれる領域;
・"<select>"タグから、"</select>"タグで囲まれる領域;
・"<noscript>"タグから、"</ noscript >"タグで囲まれる領域;
・"<form>"タグから、"</form>"タグで囲まれる領域;
・連続した空白文字列(単一の空白は除く);
・連続したタブ文字列(単一のタブは除く);
ノイズとなるタグや領域除去部122は、以上のタグ、領域、文字列を正規表現を用いて除去する。タグ内にalt属性やclass属性が存在する場合も考えられるため、その場合はそれらを含めたタグを考慮した正規表現を用いて分割を行う(例:<style class="hoge">)。
・ </div>
・ <td>
・ </td>
タグ内にalt属性やclass属性が存在する場合も考えられるため、その場合は、それらを含めたタグを考慮した正規表現を用いて分割を行う(例:<div class="hoge".)。
ここでは、特徴量抽出部13が抽出する特徴量について述べる。特徴量抽出部13では、メモリ(図示せず)に格納されたセグメント毎に、以降で述べる特徴量を抽出し、Web文書の主要コンテンツ部分の判定を行う。
当該特徴量は、Web文書で表示される文字列特徴量抽出部133で抽出される特徴量である。ここで述べる文字列とは、HTMLタグ等のWebブラウザで表示されない文字列を含まないものとする。
一般的にWeb文書の主要コンテンツ部分は、主要コンテンツでない部分と比較すると多くの文字列が含まれている。また、全体的に文字列の少ないWeb文書においても同様のことがいえる。そのためWeb文書で表示される文字列特徴量抽出部133では、分割されたWeb文書に含まれる文字列の数を特徴量とする。そして、特徴量の正規化部134では、文字列の量を正規化して特徴とする手法と、文字列の絶対値を用いて特徴量とする手法の2つを実行し、最終的な文字列の量の特徴量とする。
特徴量の正規化部134では、全てのセグメントにおいて最大の文字列の量をもつセグメントの特徴量を1とする正規化を行う。例えば、全てのセグメントにおいて最大の文字列の量が200で、あるセグメント内の文字列の量が100だった場合には、そのセグメントの文字列の量の特徴量は0.5となる。このような正規化を行うことで、全体的に文字列の少ないWeb文書においても主要コンテンツの抽出が可能になる。
上記で述べた正規化を行い特徴量とする手法は、全体的に文字列の少ないWeb文書において有効であったが、正規化を行うことで、全体的に文字列の量が多く、主要コンテンツ部分のセグメント間の文字列の量の差が大きい場合に不都合が生じる。例えば、全てのセグメントにおいて最大の文字列の量が1000で、あるセグメント内の文字列の量が100だった場合、そのセグメントの文字列の量の特徴量は0.1になる。文字列の量としては多いはずだが、正規化を行うことで、このような弊害が生じる。そこで、文字列の絶対値を用いて特徴量とする手法を行う必要がある。具体的には、特徴量の正規化部134では、ある特定の値を超えた場合にその文字列の特徴量を1とする手法を用いる。例えば、あるセグメント内の文字列の量が100の場合、文字列の量が5以上の場合の特徴量が1となり、文字列の量が10以上の場合の特徴量が1となり,…,文字列の量が105以上の特徴量は0となり,…,文字列の量が200以上の特徴量は0となるように特徴量を作成する。このように、ある特定の文字列量を超えた場合に特徴量を1とする手法を用いることで、特徴量の最大値は1のままで文字列量の絶対値を特徴量とすることができる。また、例における文字列の量の絶対値の特徴量の間隔は5としたが、場合において適切な間隔を用いるのが好ましい。8,16,32,64といった2の乗数を用いて特徴量の間隔とする手法も考えられる。文字列の量がx以上の…の最大のxも同様に、場合において適切な値に変更する。主要コンテンツ判定における計算量を減らしたい場合にはxの値を小さくすればよい。
Web広告等のノイズとなりやすいセグメントは、文字列の量は多いが句読点の数が少ない傾向にある。そのため、句読点の数を特徴とする。具体的には、セグメント内の文字列に含まれる、『、』、『,』、『。』、『.』、『!』、『・』、『?』、『…』の数を特徴量としてカウントする。この特徴量も、文字列の量で述べた正規化による特徴量と、絶対値による特徴量の二通りを算出する。算出方法においては、[1−4−1−1]の文字列の量で述べた手法と同じものを用いる。
ここでは、タグ情報特徴量抽出部132で扱うHTMLタグ等のタグ情報に関する特徴量について述べる。タグ情報には、
・テキスト系のHTMLタグの数;
・テキスト系のHTMLタグの連続出現数;
・リンクリストタグの数、Web文書で表示される文字列を含まない文字列の量;
がある。
あるセグメント内において、Web文書で表示される文字列が多い場合、テキストに関するHTMLタグが多く含まれる。また、ブログ等のCGM(Consumer Generated Media)においては、Web文書で表示される文字列は少ないが、ユーザが改行タグを多用する事例が多くみられる。そこで、タグ情報特徴量抽出部132は、テキストに関するHTMLタグの数を特徴量として用いる。この特徴量も、Web文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とし、メモリ(図示せず)に格納する。例えば、全てのセグメントにおいて最大のHTMLタグの量が10で、あるセグメント内のHTMLタグの量が5だった場合には、そのセグメントのHTMLタグの量の特徴量は0.5となる。そして、実際に使用するテキスト系のHTMLタグは、以下のタグを対象とする。
・ </p>
・ <br>
・ </br>
・ <font>
・ </font>
タグ内にsize属性やclass属性が存在する場合も考えられるため、その場合は、それらを含めたタグを考慮した正規表現を用いてカウントを行う(例:<font size="+1">)。
Web文書で表示される文字列が集中して記述してあるセグメントは、テキスト系のタグが多く存在すると同時に、テキスト系のHTMLタグが連続して出現する。ここでいう、連続して出現するというのは、他のアンカーリンク等のHTMLタグが間に出現しないということである。そこで、[1−4−2−1]で述べたテキスト系のHTMLタグの連続出現数を特徴量とする。この特徴量も、Web文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とし、メモリ(図示せず)に格納する。例えば、全てのセグメントにおいて最大のHTMLタグの連続量が10で、あるセグメント内のHTMLタグの連続量が5だった場合には、そのセグメントの文字列の量の特徴量は0.5となる。
あるセグメント内においてリンクリストタグが多い場合、そのセグメントにはナビゲーションリンク等の多くのアンカーリンクが存在し、そのセグメントは主要コンテンツとならない可能性が高い。そこで、リンクリストタグの数を特徴量とする。この特徴量も、Web文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とし、メモリ(図示せず)に格納する。例えば、全てのセグメントにおいて最大のリンクリストタグの量が10で、あるセグメント内のリンクリストタグの量が5だった場合には、そのセグメントのリンクリストタグの量の特徴量は、0.5となる。そして、具体的に使用するリンクリストタグは、以下のタグを対象とする。
・ <ul>
・ <dl>
・ <dd>
・ <ol>
タグ内にalt属性やclass属性が存在する場合も考えられるため、その場合は、それらを含めたタグを考慮した正規表現を用いてカウントを行う(例:<font class="hoge")。
あるセグメント内において、Webで表示されない文字列(HTMLタグを含む)が多い場合、そのセグメントは広告等の主要コンテンツでない可能性が高い。そこで、Web文書で表示される文字列以外の文字列(HTMLタグを含む)量を特徴量とする。この特徴量も、Web文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とし、メモリ(図示せず)に格納する。例えば、全てのセグメントにおいて最大のWebで表示されない文字列の量が100で、あるセグメント内のWebで表示されない文字列の量が50だった場合には、そのセグメントのWebで表示されない文字列の量の特徴量は0.5となる。
以下では、特徴量抽出部13のアンカーリンク情報特徴量抽出部131で扱うアンカーリンクに関する特徴量の抽出方法について述べる。アンカーリンク情報には、
・アンカーリンクの数;
・各アンカーリンクの文字列の平均量;
・すべてのアンカーリンク文字列の合計値;
・最大文字列のアンカーリンクURLの量;
・広告に関するアンカーリンクを含むか;
がある。
あるセグメントにおいて、アンカーリンクの数が多数含まれているセグメントは主要コンテンツでない可能性が高い。そこで、アンカーリンクの数を特徴量として用いる。具体的には、<a href=…>…</a>タグで表されるアンカーリンクの数を特徴量とする。この特徴量も、特徴量の正規化部134において、Web文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とし、メモリ(図示せず)に格納する。例えば、全てのセグメントにおいて最大のアンカーリンクの数が10で、あるセグメント内のアンカーリンクの数が5だった場合には、そのセグメントのアンカーリンクの数の特徴量は0.5となる。アンカーリンクタグには、class属性やalt属性が含まれる場合もあるので、アンカーリンクタグの数は正規表現を用いてカウントする。
各アンカーリンクの文字列が平均して多い場合、そのセグメントは、関連記事等のナビゲーションリンクである可能性が高い。また、アンカーリンクの文字列が平均して少ない場合、主要コンテンツ内に含まれるキーワード検索リンクである可能性が高い。そこで、セグメントに含まれるアンカーリンクの文字列の平均量を特徴量として用いる。アンカーリンクの文字列とは、<a href='…'>○○○</a>の○○○の部分に該当する。この特徴量も特徴量の正規化部134においてWeb文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とし、メモリ(図示せず)に格納する。
セグメント内に含まれるアンカーリンクの文字列の合計量が多い場合、そのセグメントはナビゲーションリンクである可能性が高い。そこで、セグメント内に含まれるアンカーリンクの文字列の合計量を特徴量として用いる。アンカーリンクの文字列とは、<a href='…'○○○</a>の○○○の部分に該当する。この特徴量も特徴量の正規化部134でWeb文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とし、メモリ(図示せず)に格納する。
アンカーリンク先のURL文字列が非常に長い場合、そのセグメントは広告である可能性が高い。そこで、セグメント内で最大長のアンカーリンク先のURLの文字列を特徴量として用いる。ここで述べるアンカーリンク先のURL文字列とは、<a href='△△△'…>…</a>の△△△の部分に該当する。この特徴量も特徴量の正規化部134でWeb文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とし、メモリ(図示せず)に格納する。
広告に関するURLを含むアンカーリンクは特徴的な文字列を含む可能性が高い。例えば、「adclick」、「adnet」、「banner」等がそれにあたる。そこで、アンカーリンク情報特徴量抽出部131では、このような広告となりやすい文字列を含んだURLを含むアンカーリンクが存在する場合、特徴量を1とし、存在しない場合を0とする特徴量を抽出し、メモリ(図示せず)に格納する。広告になりやすい文字列は、広告除去用のFirefox用アドインであるadblock plugin等のサイトに記載されているため、それを用いる。
ここでは、特徴量の比率特徴量抽出部135で扱う、[1−4−1]〜[1−4−3]で述べた特徴間の比率を用いた特徴量について述べる。
テキスト系のタグが多数あり、またテキスト系のタグの連続出現数が多いセグメントは、テキストが密に書かれているため、主要コンテンツである可能性が高い。しかしながら、テキスト系のタグは多数あるが、テキスト系のタグの連続出現数が少ないセグメントは、セグメントのサイズが大きいだけで、主要コンテンツでない可能性が高いといえる。そこで、特徴量の比率特徴量抽出部135では、テキスト系のタグ数とテキスト系のタグの連続出現数の比率を特徴量として用いる。具体的には、テキスト系のタグ数を分母とし、テキスト系のタグの連続出現数を分子とした値を特徴量として用いる。ここで、テキスト系のタグ数が0の場合は、分母が0となってしまうため、この場合のテキスト系のタグ数とテキスト系のタグの連続出現数の比率の特徴量は0とする。本特徴量も特徴量の正規化部134においてWeb文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とし、メモリ(図示せず)に格納する。この特徴量が大きければ大きいほど主要コンテンツである可能性が高い。
あるセグメント内において、Webで表示される文字列が多い場合は、主要コンテンツとなる可能性が高いが、同じセグメント内において、HTMLタグ等のタグが多い場合もある。この場合、前述の[1−4−4−1]で述べたようにセグメントのサイズが大きいだけで主要コンテンツでない可能性がある。そこで、特徴量の比率特徴量抽出部135では、Webで表示される文字列とタグの比率を特徴量として用いることでこの場合に対処する。具体的には、Webで表示される文字列の数を分子とし、タグの数を分母とした値を特徴量とする。この特徴量が大きければ大きいほど、主要コンンテンツである可能性が高い。本特徴量も、特徴量の正規化部134において、Web文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とし、メモリ(図示せず)に格納する。タグの数が0の場合は分母が0となってしまうため、特徴量は1とする。
あるセグメント内において、アンカーリンクの数や、リンクリストタグの数が多ければ多いほど、そのセグメントは主要コンテンツでない可能性が高いが、セグメントが広いためにこれらの特徴量が偶然高くなってしまう場合も考えられる。そこで、特徴量の比率特徴量抽出部135では、アンカーリンクの数とリンクリストタグの数の比率を特徴量として用いる。具体的にはアンカーリンクの数を分母とし、リンクリストタグの数を分子とし、特徴量とする。この特徴量が大きければ大きいほど、セグメントの面積に対し密度の高いリンク数が存在することになり、主要コンテンツでない可能性が高い。本特徴量も、特徴量の正規化部134で、Web文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とし、メモリ(図示せず)に格納する。アンカーリンクの数が0の場合は分母が0となってしまうため、特徴量は0とする。
ここで、主要コンテンツの判定部14が、特徴量抽出部13で求められ、メモリ(図示せず)に格納されている[1−4]で述べた特徴量を用いて、主要コンテンツか否かの判定を用いて行う手法について述べる。判定には、Support Vector Machine(SVM)や最大エントロピー法、ナイーブベイズ法等の機械学習アルゴリズムを用いて判定を行う。
上記の[1−5]で説明した主要コンテンツ判定部14が主要コンテンツか否かの判定を行った後、主要コンテンツ出力部15のデータ出力部153は、学習器によって主要コンテンツと判断されたセグメントのみを、結合して最終出力とする。出力の例を図12、図13に示す。
[1−4]で述べた特徴量を抽出する事前処理として、不要文字列等を除去する手法が有効である。以下に記述する不要文字列を事前に除去しておくことで、主要コンテンツの判定精度を高める。
・<;
・>;
・&;
・«;
・»;
これらの文字列は、HTMLタグ等で用いる記号をWebブラウザ上で表示する際に用いる特殊文字である。また、上記で挙げた特殊文字以外のHTML特殊文字も削除の対象とする。特殊文字は実際表示される文字列に対して、文字列の量が少ないため、学習の際のノイズとなりやすい。
主要コンテンツ抽出手法をユーザPC等に組み込む場合、[1−4]で述べた全ての特徴量を用いて処理することは処理量的に難しい。そのため、抽出する特徴量を絞り込むことで処理量を削減する。ここで、機械学習による学習モデルは、絞り込んだ特徴量モデル毎に学習モデルを作成する。
以下では、重要キーワード候補抽出部2について説明する。
前述の[2]では、Wikipedia(登録商標)の見出し語を用いて重要だと思われるキーワード候補の絞込みを実現したが、[3]では、出現頻度算出部3、キーワード重要度算出部4により、その中からさらに重要なキーワードを上位に位置づけるために、キーワードの重要度を算出する手法について述べる。
検索エンジンが収集した大規模なWeb文書集合における出現確率を考慮した重みがWebIDFであり、WebIDF記憶部102に格納されているものとする。具体的には、出現頻度算出部3は、検索エンジンにキーワードを入力し、その結果得られたWeb文書のヒット数からIDF値を算出し、これをWebIDFとする。Web文書集合中で多数出現するキーワードは、一般的なキーワードで特徴的なキーワードではないと判断する重みである。以下に、キーワードkのWebIDF算出式を示す。
ここでは、キーワード重要度算出部4による文書内の出現頻度と文書集合内での出現分布を用いたキーワード重み付けの手法について述べる。これらの重み付けには既存の技術であるBM25を用いる。
上記の[3−2]では、出現頻度算出部3によるBM25を用いた出現頻度による重み付け手法を述べた。本節では、キーワード重要度算出部4での文書のタイトル中での出現頻度と、本文中での出現頻度を用いたキーワード重要度の算出手法について述べる。
一般的なニュース記事内において、人名や組織名等の固有名詞は最初に正式名称で記述された後に、省略形で記述される場合が多い。例えば、「麻生次郎」と最初に書かれた後に「麻生」と書かれる場合がそれに該当する。省略形で記述された場合、記事の主題に関するキーワードでも他の重要でないキーワードより出現回数が少ない場合が生じる問題があった。そこで、形態素解析結果を用いて簡易的に省略形に対応する方法を提案する。一般的な形態素解析器は、品詞として、人名(姓、名)、地名、組織名の出力が可能である。そのため、形態素解析結果から得られた形態素の固有名詞を含むキーワード候補の出現頻度を、その形態素の出現頻度と置き換えることで、この問題に対処する。例えば、「麻生次郎」と言うキーワードが1回出現し、「麻生」という形態素の固有名詞が3回出てきた場合、「麻生次郎」の出現頻度を3回とする。
tf(d,k)=αlocation・match(d,k,mk) (5)
tf(d,k)=αorganization・match(d,k,mk)
ここで、tf(d,k)は文書dにおける出現頻度によるキーワードkのスコア、αperson、αlocation、αorganizationはそれぞれ、人名、地名、組織名に関する係数である。そして、match(d,k,mk)は文書dにおけるキーワードkに含まれる形態素mkの出現頻度である。上記の式(5)で算出したtf(d,k)は、[3−2],[3−3]で述べた出現頻度を用いたキーワード重要度の算出式で用いる。
本節では、キーワード重要度算出部4でのキーワードの重要性の算出について述べる。キーワードの重要性とは、知名度や話題性の高い、キーワードについて語る際に様々な話題が挙がる情報量が豊富な(内容の深い)キーワード程重要であると定義し、このキーワードの重要度をキーワード固有重要度と呼ぶ。当該キーワード重要度算出部4で算出されたキーワード固有重要度は固有重要度記憶部105に格納する。
以下では、キーワード重要度算出部4において、Wikipedia(登録商標)内のリンク構造を用いてキーワード固有重要度を算出する手法について説明する。
Wikipedia(登録商標)の見出し語は、知名度が高く話題性の高い見出し語ほど、テキストの記述量が多い傾向がある。そこで、authority値の算出の際に、自文書のテキスト量が多ければ多いほどその文書は重要であるといった重み、text(k)を考慮する。
一般的にWikipedia(登録商標)の見出し語は、有名なキーワードほど、自リンクと被リンクの数が多くなっている。しかしながら、地名やジャンル名のような広い概念を持つキーワードは、引用しやすいキーワードのため、自リンク数に比べて圧倒的に被リンクの数が多い傾向がある。通常のHITSアルゴリズムは良いhubから多数リンクされているauthorityは良いauthorityであるといった仮説を用いるが、圧倒的に被リンクが多い場合においては、これらの仮説は成り立たないと予想される。また、その一方で、最近知名度が高くなってきている新人俳優や話題語等の見出し語は、誕生してから日が浅いため引用数は少ないが自リンクは多い傾向にある。そのため少ない被リンク数においても、authorityを高める必要がある。これらの問題を解決するために、authority値の算出の際に、flink(k)/blink(k)を考慮する。ここで、flink(k)はキーワードkの文書内に含まれる自リンクの数を表す、blink(k)はキーワードkの文書にリンクしている被リンクの数を表す。
Wikipedia(登録商標)の見出し語には「〜年」や「〜一覧」といった明らかにauthorityとならない見出し語が存在する。これらの見出し語は自リンクが非常に多く、被リンクも非常に多い場合があるためノイズとなりやすい。そこで、明らかにauthorityとならない見出し語のauthority値は常に変更しないことで、この問題に対処する。
Wikipedia(登録商標)の文書には、自リンクが多数あるが、hubとして質の悪い文書がある。そこで、リンク先キーワードのauthorityが平均的に高いhubは重要であるといった仮説に変更することで、自リンクは多いがhubとして質の低い文書のhub値を下げる重み
Wikipedia(登録商標)の文書には、見出し語の異表記を解消するために、redirect(リダイレクト)が存在する。例えば、「イチロー」には「鈴木イチロー」、「ICHIRO」のredirectがある。Redirectは異表記のキーワードを一意に纏める効果だけでなく、キーワードの被リンク構造に大きな影響を持つため、redirectキーワードを親ノードに纏めることで、異表記のキーワード固有重要度を算出し、被リンクの問題も解決する。
この手法は、実際の検索エンジンに投入された回数が多い検索クエリほど、重要なキーワードであるとみなす手法である。検索クエリの投入回数は、ポータルサイト上で投入された検索クエリのような大規模データであることが好ましい。ここで、対象となる検索クエリは、Wikipedia(登録商標)に存在するキーワードであるとする。この手法もWikipedia(登録商標)内のリンク構造を用いた手法と同じく式(7)のキーワード固有重要度算出式を用いてスコアの近似を行い、検索クエリを投入回数を用いたキーワード固有重要度QKIS(k)とし、固有重要度記憶部105に格納する。
前述の[3−5]では、Wikipedia(登録商標)内のリンク構造から算出したキーワード固有重要度WKIS(k)と、検索エンジンの検索クエリ投入回数から算出したキーワード固有重要度QKIS(k)について述べた。しかしながら、QKIS(k)は検索クエリデータの収集期間が短い場合、その間にインターネット上で起きた話題に強く影響されてしまう問題があり、さらにインターネットサイト名等の生活的クエリが多く含まれる傾向にある。そのため、キーワード重要度算出部4では、固有重要度記憶部105に格納されているWKIS(k)とQKIS(k)の線形和を、最終的なキーワード固有重要度とすることで、話題性が高く内容が深く、かつ、検索クエリとして投入されやすいキーワードを上位に位置づける重要度を算出する。
QKIS(k)よりも、WKIS(k)のキーワード重要の方が一般的に精度が良いことが実験により確認できたため、αの値は0.5〜0.8辺りの範囲で調整する。
以下では、位置情報算出部5における処理を説明する。
以下に、重要キーワード出力部6の動作を説明する。
FD(d,k)は全てのキーワード候補に対して、キーワードの重要度を算出するため、応用アプリケーション等で少数のキーワードしか表示できない場合、上位3〜5位のキーワードをその文書内における重要キーワードとして表示する。
2 重要キーワード候補抽出手段、重要キーワード候補抽出部
3 出現頻度算出手段、出現頻度算出部
4 キーワード重要度算出手段、キーワード重要度算出部
5 位置情報算出手段、位置情報算出部
6 キーワード出力手段、重要キーワード出力部
10 主要コンテンツ抽出手段、主要コンテンツ抽出部
11 Web文書取得・入力部
12 Web文書分割手段、Web文書分割部
13 特徴量抽出手段、特徴量抽出部
14 主要コンテンツ判定手段、主要コンテンツ判定部
15 主要コンテンツ出力手段、主要コンテンツ出力部
101 キーワード辞書
102 WebIDF記憶部
103 キーワード重要度1記憶部
104 キーワード重要度2記憶部
105 第1の記憶手段、固有重要度記憶部
106 第2の記憶手段、位置重要度記憶部
111 データ入力部
112 Web文書ファイル入力部
113 URL入力部
114 Web文書取得部
115 文字コード変換部
121 広告対象領域抽出部
122 ノイズとなるタグや領域除去部
123 Web文書の分割部
131 アンカーリンク情報特徴量抽出部
132 タグ情報特徴量抽出部
133 Web文書で表示される文字列特徴量抽出部
134 特徴量の正規化部
135 特徴量の比率特徴量抽出部
141 特徴量入力部
142 テキスト判定部
143 主要コンテンツ判定部
151 タグ付テキスト出力部
152 タグなしテキスト出力部
153 データ出力部
Claims (9)
- Web文書中に含まれるテキストから重要なキーワードを抽出する重要キーワード抽出装置であって、
前記Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
オンライン百科辞典に代表される、文書集合内において一意の見出し語を持つ文書で、かつ、文書集合内において引用関係もしくは参照関係を持つ文書集合(以下、辞典文書集合と記す)の見出し語を形態素解析用の辞書として登録しているキーワード辞書を参照して、前記主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
前記Web文書内の前記重要キーワード候補に重みを付ける出現頻度算出手段と、
知名度や話題性が高く、キーワードについて語る際に様々な話題が挙がる情報量が豊富なキーワードの重要度が高くなるように前記重要キーワード候補の固有重要度を算出し、第1の記憶手段に格納するキーワード重要度算出手段と、
前記重要キーワード候補の前記Web文書中の位置に基づいて出現位置キーワード重要度を求め、第2の記憶手段に格納する位置情報算出手段と、
前記出現頻度算出手段による重要キーワード候補の重み、前記第1の記憶手段に格納されている重要キーワード候補の固有重要度及び前記第2の記憶手段に格納されている前記出現位置キーワード重要度を乗算した値に基づいて、最終重要度付きのキーワード集合を出力するキーワード出力手段と、を有し、
前記主要コンテンツ抽出手段は、
前記Web文書を所定の分割規則に基づいてセグメントに分割するWeb文書分割手段と、
前記セグメント毎に主要コンテンツ判定のための特徴量を抽出する特徴量抽出手段と、
前記セグメント毎の特徴量に基づいて機械学習アルゴリズムを用いて主要コンテンツか否かの判定を行う主要コンテンツ判定手段と、
主要コンテンツと判断された部位を結合して前記主要コンテンツとして出力する主要コンテンツ出力手段を含み、
前記特徴量抽出手段は、
前記Web文書で表示される文字列の特徴量、タグ情報の特徴量、アンカーリンク情報の特徴量を抽出し、各特徴量間の比率を用いて最終的な特徴量とする手段を含み、
前記出現頻度算出手段は、
検索エンジンが収集したWeb文書集合における出現確率を考慮した重みであるWebIDFを用いて前記重要キーワード候補に重みを付ける手段、
または、
前記重要キーワード候補の前記Web文書内の出現頻度を求め、該出現頻度と文書集合内での出現分布に基づいて各重要キーワード候補に重み付けを行うBM25を用いて該重要キーワード候補に重みを付ける手段、
のいずれかを有することを特徴とする重要キーワード抽出装置。 - 前記出現頻度算出手段は、
形態素解析手段の形態素解析結果から得られた形態素の固有名詞を含む前記重要キーワード候補の出現頻度を用いて、該重要キーワード候補に重みを付ける手段を含む
請求項1記載の重要キーワード抽出装置。 - 前記キーワード重要度算出手段は、
前記辞典文書集合内のリンク構造を用いて、前記重要キーワード候補の固有重要度を求める手段を含む請求項1または2記載の重要キーワード抽出装置。 - 前記キーワード重要度算出手段は、
検索エンジンに投入された回数が多いキーワードほど、重要なキーワードとなるような値を用いて、前記重要キーワード候補の固有重要度を求める手段を含む請求項1乃至3のいずれか1項記載の重要キーワード抽出装置。 - Web文書中に含まれるテキストから重要なキーワードを抽出する重要キーワード抽出方法であって、
主要コンテンツ抽出手段が、前記Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出ステップと、
重要キーワード候補抽出手段が、オンライン百科辞典に代表される、文書集合内において一意の見出し語を持つ文書で、かつ、文書集合内において引用関係もしくは参照関係を持つ文書集合(以下、辞典文書集合と記す)の見出し語を形態素解析用の辞書として登録しているキーワード辞書を参照して、前記主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出ステップと、
出現頻度算出手段が、前記Web文書内の前記重要キーワード候補に重みを付ける出現頻度算出ステップと、
キーワード重要度算出手段が、知名度や話題性が高く、キーワードについて語る際に様々な話題が挙がる情報量が豊富なキーワードの重要度が高くなるように前記重要キーワード候補の固有重要度を算出し、第1の記憶手段に格納するキーワード重要度算出ステップと、
位置情報算出手段が、前記重要キーワード候補の前記Web文書中の位置に基づいて出現位置キーワード重要度を求め、第2の記憶手段に格納する位置情報算出ステップと、
キーワード出力手段が、前記出現頻度算出ステップによる重要キーワード候補の重み、前記第1の記憶手段に格納されている重要キーワード候補の固有重要度及び前記第2の記憶手段に格納されている前記出現位置キーワード重要度を乗算した値に基づいて、最終重要度付きのキーワード集合を出力するキーワード出力ステップと、を行い、
前記主要コンテンツ抽出ステップでは、
前記Web文書を所定の分割規則に基づいてセグメントに分割するWeb文書分割ステップと、
前記セグメント毎に主要コンテンツ判定のための特徴量を抽出する特徴量抽出ステップと、
前記セグメント毎の特徴量に基づいて機械学習アルゴリズムを用いて主要コンテンツか否かを判定する主要コンテンツ判定ステップと、
主要コンテンツと判断された部位を結合して前記主要コンテンツとして出力する主要コンテンツ出力ステップと、を含み、
前記特徴量抽出ステップでは、
前記Web文書で表示される文字列の特徴量、タグ情報の特徴量、アンカーリンク情報の特徴量を抽出し、各特徴量間の比率を用いて最終的な特徴量とするステップを含み、
前記出現頻度算出ステップでは、
検索エンジンが収集したWeb文書集合における出現確率を考慮した重みであるWebIDFを用いて前記重要キーワード候補に重みを付けるステップ、
または、
前記重要キーワード候補の前記Web文書内の出現頻度を求め、該出現頻度と文書集合内での出現分布に基づいて各重要キーワード候補に重み付けを行うBM25を用いて該重要キーワード候補に重みを付けるステップ、
のいずれかを行うことを特徴とする重要キーワード抽出方法。 - 前記出現頻度算出ステップは、
形態素解析手段の形態素解析結果から得られた形態素の固有名詞を含む前記重要キーワード候補の出現頻度を用いて、該重要キーワード候補に重みを付ける
請求項5記載の重要キーワード抽出方法。 - 前記キーワード重要度算出ステップは、
前記辞典文書集合内のリンク構造を用いて、前記重要キーワード候補の固有重要度を求める
請求項5または6記載の重要キーワード抽出方法。 - 前記キーワード重要度算出ステップは、
検索エンジンに投入された回数が多いキーワードほど、重要なキーワードとなるような値を用いて、前記重要キーワード候補の固有重要度を求める
請求項5乃至7のいずれか1項記載の重要キーワード抽出方法。 - 請求項1乃至4のいずれか1項記載の重要キーワード抽出装置を構成する各手段としてコンピュータを機能させるための重要キーワード抽出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009048550A JP5143057B2 (ja) | 2009-03-02 | 2009-03-02 | 重要キーワード抽出装置及び方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009048550A JP5143057B2 (ja) | 2009-03-02 | 2009-03-02 | 重要キーワード抽出装置及び方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010204866A JP2010204866A (ja) | 2010-09-16 |
JP5143057B2 true JP5143057B2 (ja) | 2013-02-13 |
Family
ID=42966297
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009048550A Active JP5143057B2 (ja) | 2009-03-02 | 2009-03-02 | 重要キーワード抽出装置及び方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5143057B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11853700B1 (en) | 2021-02-12 | 2023-12-26 | Optum, Inc. | Machine learning techniques for natural language processing using predictive entity scoring |
US12079299B2 (en) | 2021-10-29 | 2024-09-03 | International Business Machines Corporation | Content management system |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5389683B2 (ja) * | 2010-01-21 | 2014-01-15 | 日本電信電話株式会社 | 重要キーワード抽出装置及び方法及びプログラム |
JP5427694B2 (ja) * | 2010-05-31 | 2014-02-26 | 日本電信電話株式会社 | 関連コンテンツ提示装置及びプログラム |
WO2012061462A1 (en) * | 2010-11-05 | 2012-05-10 | Rakuten, Inc. | Systems and methods regarding keyword extraction |
JP5979650B2 (ja) | 2014-07-28 | 2016-08-24 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 用語を適切な粒度で分割する方法、並びに、用語を適切な粒度で分割するためのコンピュータ及びそのコンピュータ・プログラム |
KR101818107B1 (ko) * | 2016-06-03 | 2018-01-15 | 조선대학교산학협력단 | 스토리텔링 저작지원 장치 및 그 방법 |
CN109791563B (zh) * | 2016-09-26 | 2023-06-06 | 日本电气株式会社 | 信息收集系统、信息收集方法和记录介质 |
CN109614482B (zh) * | 2018-10-23 | 2022-06-03 | 北京达佳互联信息技术有限公司 | 标签的处理方法、装置、电子设备及存储介质 |
CN109815501A (zh) * | 2019-01-29 | 2019-05-28 | 四川无声信息技术有限公司 | 一种获取群聊文本分类词库的方法及装置 |
KR102155860B1 (ko) * | 2019-08-19 | 2020-09-14 | 주식회사 크라우드웍스 | 반려 사유 기반의 검수자 모니터링 방법 및 장치 |
KR102155866B1 (ko) * | 2019-08-27 | 2020-09-14 | 주식회사 크라우드웍스 | 반려 사유 기반의 작업자 모니터링 방법 및 장치 |
-
2009
- 2009-03-02 JP JP2009048550A patent/JP5143057B2/ja active Active
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11853700B1 (en) | 2021-02-12 | 2023-12-26 | Optum, Inc. | Machine learning techniques for natural language processing using predictive entity scoring |
US12093651B1 (en) | 2021-02-12 | 2024-09-17 | Optum, Inc. | Machine learning techniques for natural language processing using predictive entity scoring |
US12079299B2 (en) | 2021-10-29 | 2024-09-03 | International Business Machines Corporation | Content management system |
Also Published As
Publication number | Publication date |
---|---|
JP2010204866A (ja) | 2010-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5143057B2 (ja) | 重要キーワード抽出装置及び方法及びプログラム | |
Thakkar et al. | Graph-based algorithms for text summarization | |
Zanasi | Text mining and its applications to intelligence, CRM and knowledge management | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
Al-Taani et al. | An extractive graph-based Arabic text summarization approach | |
Alami et al. | Hybrid method for text summarization based on statistical and semantic treatment | |
Selamat et al. | Word-length algorithm for language identification of under-resourced languages | |
JP5427694B2 (ja) | 関連コンテンツ提示装置及びプログラム | |
US20200327120A1 (en) | Method and system for interactive keyword optimization for opaque search engines | |
JP2012243033A (ja) | 情報処理装置、情報処理方法、およびプログラム | |
Darmawiguna et al. | The development of integrated Bali tourism information portal using web scrapping and clustering methods | |
Chader et al. | Sentiment analysis in google play store: Algerian reviews case | |
Mangina et al. | Evaluation of keyphrase extraction algorithm and tiling process for a document/resource recommender within e-learning environments | |
Leturia et al. | Morphological query expansion and language-filtering words for improving Basque web retrieval | |
JP5317638B2 (ja) | Web文書主要コンテンツ抽出装置及びプログラム | |
Zheng et al. | Multi-dimensional sentiment analysis for large-scale E-commerce reviews | |
Kanakaraj et al. | NLP based intelligent news search engine using information extraction from e-newspapers | |
Husain et al. | A language Independent Approach to develop Urdu stemmer | |
JP6106489B2 (ja) | 語義解析装置、及びプログラム | |
JP5214523B2 (ja) | 関連キーワード提示装置及びプログラム | |
Ung et al. | Combination of features for vietnamese news multi-document summarization | |
Shah et al. | WebRank: Language-Independent Extraction of Keywords from Webpages | |
Milić-Frayling | Text processing and information retrieval | |
Siemiński | Fast algorithm for assessing semantic similarity of texts | |
Shah et al. | W-rank: A keyphrase extraction method for webpage based on linguistics and DOM-base features |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120814 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121015 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121113 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121120 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151130 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5143057 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |