JP5427694B2 - 関連コンテンツ提示装置及びプログラム - Google Patents
関連コンテンツ提示装置及びプログラム Download PDFInfo
- Publication number
- JP5427694B2 JP5427694B2 JP2010125270A JP2010125270A JP5427694B2 JP 5427694 B2 JP5427694 B2 JP 5427694B2 JP 2010125270 A JP2010125270 A JP 2010125270A JP 2010125270 A JP2010125270 A JP 2010125270A JP 5427694 B2 JP5427694 B2 JP 5427694B2
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- importance
- content
- extracting
- web document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
重要キーワード候補に対して、Web文書集合における出現確率を、WebIDFアルゴリズム及び、BM25アルゴリズムを用いて算出する重要度算出手段と、
出現確率の高い上位N件の重要キーワード候補を抽出し、該N件の重要キーワード候補から検索クエリを生成し、該検索クエリに基づいて検索エンジンを検索して関連コンテンツを取得する関連コンテンツ取得手段と、を有する。
Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
重要キーワード候補に対して、WebIDFアルゴリズム及び、BM25アルゴリズムを用いてWeb文書集合における出現確率を算出し、各キーワードの形態素の固有名詞の出現頻度を算出し、該出現確率と該キーワードの固有名詞の出現頻度を用いて重要度を算出する重要度算出手段と、
重要度算出手段で算出された重要度に基づいて抽出されたN件の重要キーワード候補から検索クエリを生成し、該検索クエリに基づいて検索エンジンを検索して関連コンテンツを取得する関連コンテンツ取得手段と、を有する。
オンライン百科辞典に代表される文書集合内において一意の見出し語を持つ文書集合内において引用関係もしくは参照関係のリンク構造を持つ文書集合の見出し語が形態素解析用の辞書として格納されているキーワード辞書と、
Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
重要キーワード候補に対して、WebIDFアルゴリズム及び、BM25アルゴリズムを用いてWeb文書集合における出現確率を算出する第1の重要度算出手段と、
重要キーワード候補のキーワードに基づいてキーワード辞書を参照し、リンク構造に基づいて得られた文書のランキングを該キーワードのキーワード固有重要度とする第2の重要度算出手段と、
第1の重要度算出手段の出現確率及び第2の重要度算出手段のキーワード固有重要度を用いて算出された値に基づいて抽出されたN件の重要キーワード候補から検索クエリを生成し、該検索クエリに基づいて検索エンジンを検索して関連コンテンツを取得する関連コンテンツ取得手段と、を有する。
オンライン百科辞典に代表される文書集合内において一意の見出し語を持つ文書集合内において引用関係もしくは参照関係のリンク構造を持つ文書集合の見出し語が形態素解析用の辞書として格納されているキーワード辞書と、
キーワード辞書を参照した閲覧ログを格納した閲覧ログ記憶手段と、
Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
キーワード辞書を参照して、主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
重要キーワード候補に対して、WebIDFアルゴリズム及び、BM25アルゴリズムを用いてWeb文書集合における出現確率を算出する第1の重要度算出手段と、
閲覧ログ記憶手段を参照して、閲覧された回数が多いキーワードほど度合いが大きくなる重要度を求める第2の重要度算出手段と、
第1の重要度算出手段の出現確率と、第2の重要度算出手段の重要度を用いて算出された値に基づいて抽出された上位N件の重要キーワード候補から検索クエリを生成し、該検索クエリに基づいて検索エンジンを検索して関連コンテンツを取得する関連コンテンツ取得手段と、を有する。
オンライン百科辞典に代表される文書集合内において一意の見出し語を持つ文書集合内において引用関係もしくは参照関係のリンク構造を持つ文書集合の見出し語が形態素解析用の辞書として格納されているキーワード辞書と、
Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
キーワード辞書を参照して主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
重要キーワード候補に対して、WebIDFアルゴリズム及び、BM25アルゴリズムを用いてWeb文書集合における出現確率を算出する第1の重要度算出手段と、
重要キーワード候補が検索エンジンに投入された回数を取得し、検索クエリ投入回数を用いてキーワード固有重要度を算出する第2の重要度算出手段と、
第1の重要度算出手段の出現確率と、第2の重要度算出手段のキーワード固有重要度を用いて算出された値に基づいて抽出された上位N件の重要キーワード候補から検索クエリを生成し、該検索クエリに基づいて検索エンジンを検索して関連コンテンツを取得する関連コンテンツ取得手段と、を有する。
オンライン百科辞典に代表される文書集合内において一意の見出し語を持つ文書集合内において引用関係もしくは参照関係のリンク構造を持つ文書集合の見出し語が形態素解析用の辞書として格納されているキーワード辞書と、
Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
キーワード辞書を参照して主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
重要キーワード候補に対して、WebIDFアルゴリズム及び、BM25アルゴリズムを用いてWeb文書集合における出現確率を算出する第1の重要度算出手段と、
重要キーワード候補のWeb文書の文における出現位置を参照し、キーワードが文の先頭にあるほど値が大きくなる重要度を求める第2の重要度算出手段と、
第1の重要度算出手段の出現確率と、第2の重要度算出手段の重要度を用いて算出された値に基づいて抽出された上位N件の重要キーワード候補から検索クエリを生成し、該検索クエリに基づいて検索エンジンを検索して関連コンテンツを取得する関連コンテンツ取得手段と、を有する。
オンライン百科辞典に代表される文書集合内において一意の見出し語を持つ文書集合内において引用関係もしくは参照関係のリンク構造を持つ文書集合の見出し語が形態素解析用の辞書として格納されているキーワード辞書と、
Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
キーワード辞書を参照して主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
重要キーワード候補に対して、WebIDFアルゴリズム及び、BM25アルゴリズムを用いてWeb文書集合における出現確率を算出する第1の重要度算出手段と、
Web文書から固有表現を有する固有表現キーワードを抽出し、重要キーワード候補と一致した場合に、重みを付与したスコアを求める第2の重要度算出手段と、
第1の重要度算出手段の出現確率と、第2の重要度算出手段のスコアを用いて算出された値に基づいて抽出された上位N件の重要キーワード候補から検索クエリを生成し、該検索クエリに基づいて検索エンジンを検索して関連コンテンツを取得する関連コンテンツ取得手段と、を有する。
オンライン百科辞典に代表される文書集合内において一意の見出し語を持つ文書集合内において引用関係もしくは参照関係のリンク構造を持つ文書集合の見出し語が形態素解析用の辞書として格納されているキーワード辞書と、
キーワード辞書を参照した閲覧ログを格納した閲覧ログ記憶手段と
Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
キーワード辞書を参照して、主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
重要キーワード候補に対して、WebIDFアルゴリズム及び、BM25アルゴリズムを用いてWeb文書集合における出現確率を算出し、各キーワードの形態素の固有名詞の出現頻度を算出し、該出現確率と該キーワードの固有名詞の出現頻度を用いて第1の重要度を算出する第1の重要度算出手段と、
重要キーワード候補のキーワードに基づいてキーワード辞書を参照し、リンク構造に基づいて得られた文書のランキングを該キーワードの第2の重要度とする第2の重要度算出手段と、
閲覧ログ記憶手段を参照して、閲覧された回数が多いキーワードほど度合いが大きくなる第3の重要度を求める第3の重要度算出手段と、
重要キーワード候補が検索エンジンに投入された回数を取得し、検索クエリ投入回数を用いて第4の重要度を算出する第4の重要度算出手段と、
重要キーワード候補のWeb文書の文における出現位置を参照し、キーワードが文の先頭にあるほど値が大きくなる第5の重要度を求める第5の重要度算出手段と、
第1の重要度算出手段の第1の重要度、第2の重要度算出手段の第2の重要度、第3の重要度算出手段の第3の重要度、第4の重要度算出手段の第4の重要度、第5の重要度算出手段の第5の重要度の少なくともいずれか1つの重要度に基づいて抽出された上位N件の重要キーワード候補から検索クエリを生成し、該検索クエリに基づいて検索エンジンを検索して関連コンテンツを取得する関連コンテンツ取得手段と、を有する。
ステップ1) 入力された対象文書がWeb文書か否かの判定を行う。
事前計算処理部100の重要キーワード候補辞書DB作成部110は、Wikipedia(登録商標)データ記憶部120を参照し、当該Wikipedia(登録商標)の見出し語を抽出して、重要キーワード候補辞書DB110に登録する。
・<
・>
・&
・«
・»
これらの文字列は、HTMLタグ等で用いる記号をWebブラウザ上で表示する際に用いる特殊文字である。また、上記で挙げた特殊文字以外のHTML特殊文字も削除の対象とする。
●ステップ120:キーワード固有重要度算出部160の処理
事前計算処理部100のキーワード重要度算出部160は、後述するキーワード重要度算出部600により参照されるキーワード固有重要度DB150を生成する。キーワード重要度算出部160は、Wikipedia(登録商標)データ記憶部120、検索クエリデータ記憶部130、Wikipedia(登録商標)閲覧ログデータ140を参照し、キーワードの固有重要度を算出し、キーワード固有重要度DB150に格納する。
[1]Wikipedia(登録商標)内のリンク構造を用いた手法;
[2]Wikipedia(登録商標)上の閲覧回数を用いた手法
[3]検索エンジンの検索クエリ投入回数を用いた手法
の3つの方法がある。以下に詳細に説明する。
本項では、Wikipedia(登録商標)内のリンク構造を用いてキーワード固有重要度を算出する手法について述べる。
Wikipedia(登録商標)の見出し語は、知名度が高く話題性の高い見出し語程、テキストの記述量が多い傾向がある。そこで、authority値の算出の際に、自文書のテキスト量が多ければ多いほどその文書は重要であるといった重み、text(k)を考慮する。
一般的にWikipedia(登録商標)の見出し語は、有名なキーワード程、自リンクと被リンクの数が多くなっている。しかしながら、地名やジャンル名のような広い概念を持つキーワードは、引用しやすいキーワードのため、自リンク数に比べて圧倒的に被リンクの数が多い傾向がある。通常のHITSアルゴリズムは良いhubから多数リンクされているauthorityは良いauthorityであるといった仮説を用いるが、圧倒的に被リンクが多い場合においては、これらの仮説は成り立たないと予想される。また、その一方で、最近知名度が高くなってきている新人俳優や話題語等の見出し語は、誕生してから日が浅いため引用数は少ないが自リンクは多い傾向にある。そのため少ない被リンク数においても、authorityを高める必要がある。これらの問題を解決するために、authority値の算出の際にflink(k)/blink(k)を考慮する。ここで、flink(k)はキーワードkの文書内に含まれる自リンクの数を表し、blink(k)はキーワードkの文書にリンクしている被リンク数の数を表す。
Wikipedia(登録商標)の見出し語には、「〜年」や「〜一覧」といった明らかにauthorityとならない見出し語が存在する。これらの見出し語は自リンクが非常に多く、被リンクも非常に多い場合があるため、ノイズとなりやすい。そこで、明らかにauthorityとならない見出し語のauthority値は常に変更しないことで、この問題に対処する。
Wikipedia(登録商標)の文書には、自リンクが多数あるが、hubとして質の悪い文書がある。そこで、リンク先キーワードのauthorityが平均的に高いhubは重要であるといった仮設に変更することで、自リンクは多いがhubとして質の低い文書のhub値を下げる重み
Wikipedia(登録商標)の文書には、見出し語の異表記を解消するためにredirectが存在する。例えば、「アメリカ合衆国」には、「アメリカ」、「United States of America」のredirectがある。Redirectは異表記のキーワードを一意にまとめる効果だけでなく、キーワードの被リンク構造に大きな影響をもつため、redirectキーワードを親ノードにまとめることで、異表記のキーワード固有重要度を算出し、被リンクの問題も解決する。
以下では、Wikipedia(登録商標)上において閲覧された回数が多いキーワード程、重要なキーワードであるとみなす手法を説明する。Wikipedia(登録商標)上の閲覧回数を記載されている閲覧ログは以下のサイトから取得できる。
この手法もWikipedia(登録商標)内のリンク構造を用いた手法と同じく、式(7)のキーワード固有重要度算出式を用いてスコアの近似を行い、Wikipedia(登録商標)上の閲覧回数を用いたキーワード固有重要度WBKIS(k)とする。
この手法は、実際の検索エンジンに投入された回数が多い検索クエリ程、重要なキーワードであるとみなす手法である。検索クエリの投入回数は、ポータルサイト上で投入された検索クエリのような大規模データであることが好ましい。ここで、対象となる検索クエリはWikipedia(登録商標)に存在するキーワードであるとする。この手法もWikipedia(登録商標)内のリンク構造を用いた手法と同じく式(3)のキーワード固有重要度算出式を用いてスコアの近似を行い、検索クエリの投入回数を用いたキーワード固有重要度QKIS(k)とする。
関連コンテンツ提示の対象となる文書を入力する。
最初に主要コンテンツ抽出部300の処理について説明する。
・連続したタブ文字列。(単一のタブは除く)
以上のタグ、領域、文字列を正規表現を用いて除去する。また、タグ内にalt属性やclass属性が存在する場合も考えられるため、その場合はそれらを含めたタグを考慮した正規表現を用いて分割を行う。(例:<style class="hoge">)
Web文書の分割部323は、Web文書の分割を行う。分割の規則は、以下のタグを用いて分割を行う(Web文書の分割部)。
・<div>
・</div>
・<td>
・</td>
タグ内にalt属性やclass属性が存在する場合も考えられるため、その場合は、それらを含めたタグを考慮した正規表現を用いて分割を行う。(例:<div class="hoge">)
以降分割されたWeb文書の一つ一つを「セグメント」と呼び、特徴量抽出と主要コンテンツか否かの判定はセグメント毎に行うものとする。
[1]Web文書で表示される文字列(Web文書で表示される文字列特徴量抽出部333);
[2]タグ情報(タグ情報特徴量抽出332);
[3]アンカーリング情報(アンカーリンク情報特徴量抽出部331);
[4]特徴量の比率(特徴量の比率特徴量抽出部335);
を抽出する。
当該Web文書で表示される文字列は、Web文書で表示される文字列特徴量抽出部333により抽出される。
一般的にWeb文書の主要コンテンツ部分は、主要コンテンツでない部分と比較すると多くの文字列が含まれている。また、全体的に文字列の少ないWeb文書においても同様のことが言える。そのため、Web文書で表示される文字列特徴量抽出部333において、分割されたWeb文書に含まれる文字列の数を特徴量として抽出する。そして、特徴量正規化部334にて、以下に示す文字列の量を正規化して特徴量とする手法(a)と、文字列の絶対値を用いて特徴量とする手法(b)の二つを実行し、最終的な文字列の量の特徴量とする。
特徴量正規化部334は、すべてのセグメントにおいて最大の文字列の量をもつセグメントの特徴量を1とする正規化を行う。例えば、すべてのセグメントにおいて最大の文字列の量が200で、あるセグメント内の文字列の量が100だった場合には、そのセグメントの文字列の量の特徴量は0.5となる。このような正規化を行うことで、全体的に文字列の少ないWeb文書においても主要コンテンツの抽出が可能になる。
上記で述べた正規化を行い特徴量とする手法は、全体的に文字列の少ないWeb文書において有効であったが、正規化を行うことで、全体的に文字列の量が多く、主要コンテンツ部分のセグメント間の文字列の量の差が大きい場合に不都合が生じる。例えば、すべてのセグメントにおいて最大の文字列の量が1000で、あるセグメント内の文字列の量が100だった場合、そのセグメントの文字列の量の特徴量は0.1になる。文字列の量としては多いはずだが、正規化を行うことで、このような弊害が生じる。そこで、文字列の絶対値を用いて特徴量とする手法を行う必要がある。具体的には、ある特定の値を超えた場合にその文字列の特徴量を1とする手法を用いる。例えば、あるセグメント内の文字列の量が100の場合、文字列の量が5以上の場合の特徴量が1となり、文字列の量が10以上の場合の特徴量が1となり,…,文字列の量が105以上の特徴量は0となり,…,文字列の量が200以上の特徴量は0となるように、特徴量を作成する。このように、ある特定の文字列量を超えた場合に特徴量を1とする手法を用いることで、特徴量の最大値は1のままで文字列の量の絶対値を特徴量とすることができる。また、例においての文字列の量の絶対値の特徴量の間隔は5としたが、場合において適切な間隔を用いるのが好ましい。また、8,16,32,64といった2の乗数を用いて特徴量の間隔とする手法も考えられる。文字列の量がx以上の・・・の最大のxも同様に、場合において適切な値に変更する。主要コンテンツ判定における計算量を減らしたい場合にはxの値を小さくすると良いだろう。
Web広告等のノイズとなりやすいセグメントは、文字列の量は多いが句読点の数が少ない傾向にある。そのため、句読点の数を特徴とする。具体的にはセグメント内の文字列に含まれる『、』、『,』、『。』、『.』、『!』、『・』、『?』、『…』の数を特徴量としてカウントする。この特徴量も、文字列の量で述べた正規化による特徴量と、絶対値による特徴量の二通りを算出する。算出方法においては、[1−1]文字列の量で述べた手法と同じものを用いる。
ここでは、HTMLタグ等のタグ情報に関する特徴量について述べる。
あるセグメント内において、Web文書で表示される文字列が多い場合、テキストに関するHTMLタグが多く含まれる。また、ブログ等のCGMにおいては、Web文書で表示される文字列は少ないが、ユーザが改行タグを多用する事例が多くみられる。そこで、タグ情報特徴量抽出部332では、テキストに関するHTMLタグの数を特徴量として用いる。この特徴量も、特徴量正規化部334にてWeb文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とする。例えば、すべてのセグメントにおいて最大のHTMLタグの量が10で、あるセグメント内のHTMLタグの量が5だった場合には、そのセグメントのHTMLタグの量の特徴量は0.5となる。そして、例で使用するテキスト系のHTMLタグは、以下のタグを対象とする。
・</p>
・<br>
・</br>
・<font>
・</font>
タグ内にsize属性やclass属性が存在する場合も考えられるため、その場合は、それらを含めたタグを考慮した正規表現を用いてカウントを行う。(例:<font size="+1">)
[2−2] テキスト系のHTMLタグの連続出現数
Web文書で表示される文字列が集中して記述してあるセグメントは、テキスト系のタグが多く存在すると同時に、テキスト系のHTMLタグが連続して出現する。ここでいう、連続して出現するというのは、他のアンカーリンク等のHTMLタグが間に出現しないということである。そこで、タグ情報特徴量抽出部332は、[2−1]で述べたテキスト系のHTMLタグの連続出現数を特徴量とする。この特徴量も、特徴量正規化部334にてWeb文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とする。例えば、すべてのセグメントにおいて最大のHTMLタグの連続量が10で、あるセグメント内のHTMLタグの連続量が5だった場合には、そのセグメントの文字列の量の特徴量は0.5となる。
あるセグメント内においてリンクリストタグが多い場合、そのセグメントにはナビゲーションリンク等の多くのアンカーリンクが存在し、そのセグメントは主要コンテンツとならない可能性が高い。そこで、タグ情報特徴量抽出部332は、リンクリストタグの数を特徴量とする。この特徴量も、特徴量正規化部334にてWeb文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とする。例えば、すべてのセグメントにおいて最大のリンクリストタグの量が10で、あるセグメント内のリンクリストタグの量が5だった場合には、そのセグメントのリンクリストタグの量の特徴量は0.5となる。そして、実施例で使用するリンクリストタグは、以下のタグを対象とする。
・<ul>
・<dl>
・<dd>
・<ol>
タグ内にalt属性やclass属性が存在する場合も考えられるため、その場合は、それらを含めたタグを考慮した正規表現を用いてカウントを行う。(例:<font class="hoge">)
[2−4] Web文書で表示される文字列を含まない文字列(HTMLタグを含む)の量
あるセグメント内において、Webで表示されない文字列(HTMLタグを含む)が多い場合、そのセグメントは広告等の主要コンテンツでない可能性が高い。そこで、タグ情報特徴量抽出部332は、Web文書で表示される文字列以外の文字列(HTMLタグを含む)量を特徴量とする。この特徴量も、特徴量正規化部334にてWeb文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とする。例えば、すべてのセグメントにおいて最大のWebで表示されない文字列の量が100で、あるセグメント内のWebで表示されない文字列の量が50だった場合には、そのセグメントのWebで表示されない文字列の量の特徴量は0.5となる。
ここでは、アンカーリンクに関する特徴量の抽出方法について述べる。
あるセグメントにおいて、アンカーリンクが多数含まれているセグメントは主要コンテンツでない可能性が高い。そこで、アンカーリンク情報特徴量抽出部331は、アンカーリンクの数を特徴量として用いる。具体的には<a href=…>…</A>タグで表されるアンカーリンクの数を特徴量とする。この特徴量も、特徴量正規化部334にてWeb文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とする。例えば、すべてのセグメントにおいて最大のアンカーリンクの数が10で、あるセグメント内のアンカーリンクの数が5だった場合には、そのセグメントのアンカーリンクの数の特徴量は0.5となる。アンカーリンクタグには、class属性やalt属性が含まれる場合もあるので、アンカーリンクタグの数は正規表現を用いてカウントする。
各アンカーリンクの文字列が平均して多い場合、そのセグメントは、関連記事等のナビゲーションリンクである可能性が高い。また、アンカーリンクの文字列が平均して少ない場合、主要コンテンツ内に含まれるキーワード検索リンクである可能性が高い。そこで、アンカーリンク情報特徴量抽出部331は、セグメントに含まれるアンカーリンクの文字列の平均量を特徴量として用いる。アンカーリンクの文字列とは、<a href='…'…>○○○</A>の○○○の部分に該当する。この特徴量も、特徴量正規化部334にてWeb文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とする。
セグメント内に含まれるアンカーリンクの文字列の合計量が多い場合、そのセグメントはナビゲーションリンクである可能性が高い。そこで、アンカーリンク情報特徴量抽出部331は、セグメント内に含まれるアンカーリンクの文字列の合計量を特徴量として用いる。アンカーリンクの文字列とは、<a href='…'>○○○</A>の○○○の部分に該当する。この特徴量も、特徴量正規化部334にてWeb文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とする。
アンカーリンク先のURL文字列が非常に長い場合、そのセグメントは広告である可能性が高い。そこで、アンカーリンク情報特徴量抽出部331は、セグメント内で最大長のアンカーリンク先のURLの文字列を特徴量として用いる。ここで述べるアンカーリンク先のURL文字列とは、<a href='△△△'…>…</A>の△△△の部分に該当する。この特徴量も、特徴量正規化部334にてWeb文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とする。
広告に関するURLを含むアンカーリンクは特徴的な文字列を含む可能性が高い。例えば、「adclick」、「adnet」、「banner」等がそれにあたる。そこで、アンカーリンク情報特徴量抽出部331は、このような広告となりやすい文字列を含んだURLを含むアンカーリンクが存在する場合、特徴量を1とし、存在しない場合を0とする特徴量を抽出する。広告になりやすい文字列は、広告除去用のFirefox用アドインであるAdblock plugin等のサイトに記載されているため、それを用いる。
ここでは、[1]から[3]で述べた特徴量間の比率を用いた特徴量について述べる。
テキスト系のタグが多数あり、またテキスト系のタグの連続出現数が多いセグメントは、テキストが密に書かれているため、主要コンテンツである可能性が高い。しかしながら、テキスト系のタグは多数あるが、テキスト系のタグの連続出現数が少ないセグメントは、セグメントのサイズが大きいだけで、主要コンテンツでない可能性が高いと言える。そこで、特徴量の比率特徴量抽出部335は、テキスト系のタグ数とテキスト系のタグの連続出現数の比率を特徴量として用いる。具体的には、テキスト系のタグ数を分母とし、テキスト系のタグの連続出現数を分子とした値を、特徴量として用いる。ここで、テキスト系のタグ数が0の場合は、分母が0となってしまうため、この場合のテキスト系のタグ数とテキスト系のタグの連続出現数の比率の特徴量は0とする。本特徴量も、Web文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とする。この特徴量が大きければ大きいほど主要コンテンツである可能性が高い。
あるセグメント内において、Webで表示される文字列が多い場合は主要コンテンツとなる可能性が高いが、同じセグメント内において、HTMLタグ等のタグが多い場合もある。この場合、[4−1]で述べたようにセグメントのサイズが大きいだけで、主要コンテンツでない可能性がある。そこで、特徴量の比率特徴量抽出部335は、Webで表示される文字列とタグの比率を特徴量として用いることで、このような場合に対処する。
あるセグメント内において、アンカーリンクの数や、リンクリストタグの数が多ければ多いほど、そのセグメントは主要コンテンツでない可能性が高いが、セグメントが広いためにこれらの特徴量が偶然高くなってしまう場合も考えられる。そこで、特徴量の比率特徴量抽出部335は、アンカーリンクの数とリンクリストタグの数の比率を特徴量として用いる。具体的にはアンカーリンクの数を分母とし、リンクリストタグの数を分子とし、特徴量とする。この特徴量が大きければ大きいほど、セグメントの面積に対し密度の高いリンク数が存在することになり、主要コンテンツでない可能性が高い。本特徴量も、Web文書で表示される文字列で用いた特徴量の正規化を同様に行い、最終的な特徴量とする。アンカーリンクの数が0の場合は分母が0となってしまうため、特徴量は0とする。
図9は、本発明の一実施の形態における主要コンテンツ判定部の構成を示す。
図11は、本発明の一実施の形態における主要コンテンツ出力部の構成を示す。
主要コンテンツ抽出手法をユーザPC等に組み込む場合、上記の特徴量抽出部330で抽出されたすべての特徴量を用いて処理することは、処理量的に難しい。そのため、抽出する特徴量を絞り込むことで処理量を削減する。ここで、機械学習による学習モデルは、絞り込んだ特徴量モデルごとに学習モデルを作成する。
従来の一般的なキーワード抽出手法は形態素解析や固有表現抽出を用いた手法であったが、形態素解析手法では、複合名詞の抽出に関する問題や重要キーワードの絞込みに関しての問題があり、また固有表現抽出においては人名、組織名、地名といった狭い範囲のキーワード抽出しかできないため、ユーザの興味を網羅するキーワード候補の抽出ができなかった。
上記の重要キーワード候補抽出部400では、Wikipedia(登録商標)の見出し語を用いて重要だと思われるキーワード候補の絞込みを実現したが、当該出現頻度を用いた重要度算出部500ではその中からさらに重要なキーワードを上位に位置づけるために出現頻度を用いた重要度算出部500においてキーワードの重要度を算出する手法について述べる。
検索エンジンが収集した大規模なWeb文書集合における出現確率を考慮した重みがWebIDFである。具体的には、検索エンジンにキーワードを入力し、その結果得られたWeb文書のヒット数からIDF値を算出し、これをWebIDFとする。Web文書集合中で多数出現するキーワードは一般的なキーワードで特徴的なキーワードではないと判断する重みである。以下に、キーワードkのWebIDF算出式を掲載する。
以下では、文書内の出現頻度と文書集合内での出現分布を用いたキーワード重み付け手法について述べる。これらの重み付けには従来法であるBM25を用いる。
は総文書数である。k1とbは自由パラメータで、k1はtf(d,k)に関するパラメータ、bはdlに関するパラメータである。
上記の[2]では、BM25を用いた出現頻度による重み付け手法を述べた。
一般的なニュース記事内において、人名や組織名等の固有名詞は最初に正式名称で記述された後に、省略形で記述される場合が多い。例えば、「田中太郎」と最初に書かれた後に「田中」と書かれる場合がそれに該当する。省略形で記述された場合、記事の主題に関するキーワードでも他の重要でないキーワードより出現回数が少ない場合が生じる問題があった。そこで、形態素解析結果を用いて簡易的に省略形に対応する方法を提案する。一般的な形態素解析器は、品詞として、人名(姓、名)、地名、組織名の出力が可能である。そのため、形態素解析結果から得られた形態素の固有名詞を含むキーワード候補の出現頻度を、その形態素の出現頻度と置き換えることで、この問題に対処する。例えば、「麻生太郎」というキーワードが1回出現し、「麻生」という形態素の固有名詞が3回出てきた場合、「麻生太郎」の出現頻度を3回とする。
キーワード重要度算出部600は、キーワード固有重要度算出部160により生成されたキーワード固有重要度DB150を参照して、キーワード候補の重要度を算出する。
ニュース記事やコラム等の一般的な記述がなされる記事においては、文の先頭に来ればくるほど重要なキーワードが含まれている可能性が高い。そのため、文の先頭にあればあるほど、そのキーワードは重要であるという重要度を算出する。この手法もWikipedia(登録商標)内のリンク構造を用いた手法と同じく式(12)のキーワード固有重要度算出式を用いて、出現位置を用いたキーワード重要度Pos(k)の算出を行う。
キーワード重要度算出部600は、固有表現辞書(図示せず)から得られた固有表現キーワード(人名、地名、組織名、固有物名)と重要キーワード候補抽出部400で抽出したキーワード候補が一致した場合に、キーワードの重みづけを行う。また、キーワード候補の抽出で抽出できなかったキーワードについては、指定した重要度を付与する処理を行う。以下に、その詳細を述べる。
関連コンテンツ・取得提示部700は、キーワード重要度算出部600で求められた重要度の高いキーワードを用いて関連コンテンツを取得する。
「キーワードA キーワードB キーワードC」
のようにスペース区切りで検索クエリを作成することにより、「キーワードA or キーワードB or キーワードC」といった検索クエリの条件にて関連コンテンツを取得することができる。検索クエリの数に関しては、関連コンテンツAPIの保有するコンテンツ数に応じて変更すればよい。また、or検索だけでなく、and検索等を実行することも考えられる。コンテンツが少ない場合は、多くのキーワードをor検索で実行する。コンテンツが多い場合は少ないキーワードでもコンテンツ結果が取得できる可能性が高いので、関連コンテンツの絞り込みをしたい場合は、少ないキーワードでもよい。APIに投入する例として以下のようなURLを入力し、結果を取得する。
そして、取得した結果はXML等で記述されているため、XMLパーザ等の既存技術を用いてデータを取得する。そして、取得したデータの一部を関連コンテンツとして提示する。
関連コンテンツ提示装置の出力例を図14に記載する。
(1)入力されたテキストから重要語を抽出し、検索クエリをインターフェースとする様々な外部コンテンツAPIを用いて、動画やブログ、クーポン情報、グルメ情報等の様々な関連コンテンツを提示できる;
(2)従来技術の関連コンテンツ提示手法では、自社サーバが保有している関連コンテンツの提示しかできなかったが、本手法では自社が保有していない外部の関連コンテンツを外部コンテンツAPIを通じて提示できる;
(3)重要語抽出に基づく手法のため、関連コンテンツとして提示した際にテキスト中のこのキーワードが重要語であったため、このコンテンツを提示したという重要語による関連コンテンツの提示理由が表示できる;
(4)関連コンテンツの特性に特化した重要語抽出が可能なため、コンテンツ提示精度が高い;
(5)従来法の類似度に基づく関連コンテンツ提示手法と比較して、計算量的なコストが大変低い;
等の効果を奏する。
110 重要キーワード候補辞書DB
120 Wikipedia(登録商標)データ記憶部
130 検索クエリデータ記憶部
140 Wikipedia(登録商標)閲覧ログデータ記憶部
150 キーワード固有重要度DB
160 キーワード固有重要度算出部
200 文書入力部
300 主要コンテンツ抽出部
310 Web文書取得・入力部
311 データ入力部
312 Web文書ファイル入力部
313 URL入力部
314 Web文書取得部
315 文字コード変換部
320 Web文書分割部
321 広告対象領域抽出部
322 ノイズとなるタグや領域除去部
323 Web文書の分割部
330 特徴量抽出部
331 アンカーリンク情報特徴量抽出部
332 タグ情報特徴量抽出部
333 Web文書で表示される文字列特徴量抽出部
334 特徴量の正規化部
335 特徴量の比率特徴量抽出部
340 主要コンテンツ判定部
341 特徴量入力部
342 テキスト判定部
343 主要コンテンツ判定処理部
350 主要コンテンツ出力部
351 タグ付きテキスト出力部
352 タグなしテキスト出力部
400 重要キーワード候補抽出部
500 出現頻度を用いた重要度算出部
600 キーワード重要度算出部
700 関連コンテンツ取得・提示部
800 関連コンテンツ出力部
Claims (9)
- Web文書中に含まれるテキストからその内容に関連するWebコンテンツを提示するための関連コンテンツ提示装置であって、
前記Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
前記主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
前記重要キーワード候補に対して、Web文書集合における出現確率を、WebIDFアルゴリズム及びBM25アルゴリズムを用いて算出する重要度算出手段と、
出現確率の高い上位N件の重要キーワード候補を抽出し、該N件の重要キーワード候補から検索クエリを生成し、該検索クエリに基づいて検索エンジンを検索して関連コンテンツを取得する関連コンテンツ取得手段と、
を有することを特徴とする関連コンテンツ提示装置。 - Web文書中に含まれるテキストからその内容に関連するWebコンテンツを提示するための関連コンテンツ提示装置であって、
前記Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
前記主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
前記重要キーワード候補に対して、WebIDFアルゴリズム及びBM25アルゴリズムを用いてWeb文書集合における出現確率を算出し、各キーワードの形態素の固有名詞の出現頻度を算出し、該出現確率と該キーワードの固有名詞の出現頻度を用いて重要度を算出する重要度算出手段と、
前記重要度算出手段で算出された前記重要度に基づいて抽出されたN件の重要キーワード候補から検索クエリを生成し、該検索クエリに基づいて検索エンジンを検索して関連コンテンツを取得する関連コンテンツ取得手段と、
を有することを特徴とする関連コンテンツ提示装置。 - Web文書中に含まれるテキストからその内容に関連するWebコンテンツを提示するための関連コンテンツ提示装置であって、
オンライン百科辞典に代表される文書集合内において一意の見出し語を持つ文書集合内において引用関係もしくは参照関係のリンク構造を持つ文書集合の見出し語が形態素解析用の辞書として格納されているキーワード辞書と、
前記Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
前記主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
前記重要キーワード候補に対して、WebIDFアルゴリズム及びBM25アルゴリズムを用いてWeb文書集合における出現確率を算出する第1の重要度算出手段と、
前記重要キーワード候補のキーワードに基づいて前記キーワード辞書を参照し、前記リンク構造に基づいて得られた文書のランキングを該キーワードのキーワード固有重要度とする第2の重要度算出手段と、
前記第1の重要度算出手段の前記出現確率及び前記第2の重要度算出手段の前記キーワード固有重要度を用いて算出された値に基づいて抽出されたN件の重要キーワード候補から検索クエリを生成し、該検索クエリに基づいて検索エンジンを検索して関連コンテンツを取得する関連コンテンツ取得手段と、
を有することを特徴とする関連コンテンツ提示装置。 - Web文書中に含まれるテキストからその内容に関連するWebコンテンツを提示するための関連コンテンツ提示装置であって、
オンライン百科辞典に代表される文書集合内において一意の見出し語を持つ文書集合内において引用関係もしくは参照関係のリンク構造を持つ文書集合の見出し語が形態素解析用の辞書として格納されているキーワード辞書と、
前記キーワード辞書を参照した閲覧ログを格納した閲覧ログ記憶手段と、
前記Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
前記キーワード辞書を参照して、前記主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
前記重要キーワード候補に対して、WebIDFアルゴリズム及び、BM25アルゴリズムを用いてWeb文書集合における出現確率を算出する第1の重要度算出手段と、
前記閲覧ログ記憶手段を参照して、閲覧された回数が多いキーワードほど度合いが大きくなる重要度を求める第2の重要度算出手段と、
前記第1の重要度算出手段の前記出現確率と、前記第2の重要度算出手段の前記重要度を用いて算出された値に基づいて抽出された上位N件の重要キーワード候補から検索クエリを生成し、該検索クエリに基づいて検索エンジンを検索して関連コンテンツを取得する関連コンテンツ取得手段と、
を有することを特徴とする関連コンテンツ提示装置。 - Web文書中に含まれるテキストからその内容に関連するWebコンテンツを提示するための関連コンテンツ提示装置であって、
オンライン百科辞典に代表される文書集合内において一意の見出し語を持つ文書集合内において引用関係もしくは参照関係のリンク構造を持つ文書集合の見出し語が形態素解析用の辞書として格納されているキーワード辞書と、
前記Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
前記キーワード辞書を参照して前記主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
前記重要キーワード候補に対して、WebIDFアルゴリズム及び、BM25アルゴリズムを用いてWeb文書集合における出現確率を算出する第1の重要度算出手段と、
前記重要キーワード候補が検索エンジンに投入された回数を取得し、検索クエリ投入回数を用いてキーワード固有重要度を算出する第2の重要度算出手段と、
前記第1の重要度算出手段の前記出現確率と、前記第2の重要度算出手段の前記キーワード固有重要度を用いて算出された値に基づいて抽出された上位N件の重要キーワード候補から検索クエリを生成し、該検索クエリに基づいて検索エンジンを検索して関連コンテンツを取得する関連コンテンツ取得手段と、
を有することを特徴とする関連コンテンツ提示装置。 - Web文書中に含まれるテキストからその内容に関連するWebコンテンツを提示するための関連コンテンツ提示装置であって、
オンライン百科辞典に代表される文書集合内において一意の見出し語を持つ文書集合内において引用関係もしくは参照関係のリンク構造を持つ文書集合の見出し語が形態素解析用の辞書として格納されているキーワード辞書と、
前記Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
前記キーワード辞書を参照して前記主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
前記重要キーワード候補に対して、WebIDFアルゴリズム及び、BM25アルゴリズムを用いてWeb文書集合における出現確率を算出する第1の重要度算出手段と、
前記重要キーワード候補の前記Web文書の文における出現位置を参照し、キーワードが文の先頭にあるほど値が大きくなる重要度を求める第2の重要度算出手段と、
前記第1の重要度算出手段の前記出現確率と、前記第2の重要度算出手段の前記重要度を用いて算出された値に基づいて抽出された上位N件の重要キーワード候補から検索クエリを生成し、該検索クエリに基づいて検索エンジンを検索して関連コンテンツを取得する関連コンテンツ取得手段と、
を有することを特徴とする関連コンテンツ提示装置。 - Web文書中に含まれるテキストからその内容に関連するWebコンテンツを提示するための関連コンテンツ提示装置であって、
オンライン百科辞典に代表される文書集合内において一意の見出し語を持つ文書集合内において引用関係もしくは参照関係のリンク構造を持つ文書集合の見出し語が形態素解析用の辞書として格納されているキーワード辞書と、
前記Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
前記キーワード辞書を参照して前記主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
前記重要キーワード候補に対して、WebIDFアルゴリズム及び、BM25アルゴリズムを用いてWeb文書集合における出現確率を算出する第1の重要度算出手段と、
前記Web文書から固有表現を有する固有表現キーワードを抽出し、前記重要キーワード候補と一致した場合に、重みを付与したスコアを求める第2の重要度算出手段と、
前記第1の重要度算出手段の前記出現確率と、前記第2の重要度算出手段の前記スコアを用いて算出された値に基づいて抽出された上位N件の重要キーワード候補から検索クエリを生成し、該検索クエリに基づいて検索エンジンを検索して関連コンテンツを取得する関連コンテンツ取得手段と、
を有することを特徴とする関連コンテンツ提示装置。 - Web文書中に含まれるテキストからその内容に関連するWebコンテンツを提示するための関連コンテンツ提示装置であって、
オンライン百科辞典に代表される文書集合内において一意の見出し語を持つ文書集合内において引用関係もしくは参照関係のリンク構造を持つ文書集合の見出し語が形態素解析用の辞書として格納されているキーワード辞書と、
前記キーワード辞書を参照した閲覧ログを格納した閲覧ログ記憶手段と
前記Web文書を取得して該Web文書の特徴量を抽出し、主要コンテンツを抽出する主要コンテンツ抽出手段と、
前記キーワード辞書を参照して、前記主要コンテンツから重要キーワード候補を抽出する重要キーワード候補抽出手段と、
前記重要キーワード候補に対して、WebIDFアルゴリズム及び、BM25アルゴリズムを用いてWeb文書集合における出現確率を算出し、各キーワードの形態素の固有名詞の出現頻度を算出し、該出現確率と該キーワードの固有名詞の出現頻度を用いて第1の重要度を算出する第1の重要度算出手段と、
前記重要キーワード候補のキーワードに基づいて前記キーワード辞書を参照し、前記リンク構造に基づいて得られた文書のランキングを該キーワードの第2の重要度とする第2の重要度算出手段と、
前記閲覧ログ記憶手段を参照して、閲覧された回数が多いキーワードほど度合いが大きくなる第3の重要度を求める第3の重要度算出手段と、
前記重要キーワード候補が検索エンジンに投入された回数を取得し、検索クエリ投入回数を用いて第4の重要度を算出する第4の重要度算出手段と、
前記重要キーワード候補の前記Web文書の文における出現位置を参照し、キーワードが文の先頭にあるほど値が大きくなる第5の重要度を求める第5の重要度算出手段と、
前記第1の重要度算出手段の前記第1の重要度、前記第2の重要度算出手段の前記第2の重要度、前記第3の重要度算出手段の前記第3の重要度、前記第4の重要度算出手段の前記第4の重要度、前記第5の重要度算出手段の前記第5の重要度の少なくとも1いずれか1つの重要度に基づいて抽出された上位N件の重要キーワード候補から検索クエリを生成し、該検索クエリに基づいて前記検索エンジンを検索して関連コンテンツを取得する関連コンテンツ取得手段と、
を有することを特徴とする関連コンテンツ提示装置。 - 請求項1乃至8のいずれか1項に記載の関連コンテンツ提示装置を構成する各手段としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010125270A JP5427694B2 (ja) | 2010-05-31 | 2010-05-31 | 関連コンテンツ提示装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010125270A JP5427694B2 (ja) | 2010-05-31 | 2010-05-31 | 関連コンテンツ提示装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011253256A JP2011253256A (ja) | 2011-12-15 |
JP5427694B2 true JP5427694B2 (ja) | 2014-02-26 |
Family
ID=45417166
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010125270A Active JP5427694B2 (ja) | 2010-05-31 | 2010-05-31 | 関連コンテンツ提示装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5427694B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012178143A (ja) * | 2012-01-07 | 2012-09-13 | Patentisland Corp | 電子書籍表示制御装置、電子書籍表示制御プログラム、電子書籍表示制御方法 |
JP6119360B2 (ja) * | 2013-03-26 | 2017-04-26 | 大日本印刷株式会社 | 参照情報提示システム、参照情報提示方法、サーバ、参照情報配信方法、及び、プログラム |
JP2015069386A (ja) * | 2013-09-27 | 2015-04-13 | 大日本印刷株式会社 | サーバ装置、プログラム及び通信方法 |
JP2020107288A (ja) * | 2018-12-28 | 2020-07-09 | ヤフー株式会社 | 表示プログラム、表示装置、表示方法及び情報処理装置 |
CN112148958A (zh) * | 2019-06-26 | 2020-12-29 | 傲基科技股份有限公司 | 用于信息推荐的方法、设备和计算机存储介质 |
KR102507192B1 (ko) * | 2020-12-07 | 2023-03-07 | 고려대학교 산학협력단 | 문서 유사도 측정 모델 생성 방법 및 이를 이용한 문서 유사도 측정 방법 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007052693A (ja) * | 2005-08-19 | 2007-03-01 | National Institute Of Information & Communication Technology | Webページ情報表示装置,処理方法およびプログラム |
JP5143057B2 (ja) * | 2009-03-02 | 2013-02-13 | 日本電信電話株式会社 | 重要キーワード抽出装置及び方法及びプログラム |
-
2010
- 2010-05-31 JP JP2010125270A patent/JP5427694B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011253256A (ja) | 2011-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5143057B2 (ja) | 重要キーワード抽出装置及び方法及びプログラム | |
RU2377645C2 (ru) | Способ и система для классификации дисплейных страниц с помощью рефератов | |
El-Beltagy et al. | KP-Miner: A keyphrase extraction system for English and Arabic documents | |
US8311997B1 (en) | Generating targeted paid search campaigns | |
US8538989B1 (en) | Assigning weights to parts of a document | |
Thakkar et al. | Graph-based algorithms for text summarization | |
US7519588B2 (en) | Keyword characterization and application | |
US8782037B1 (en) | System and method for mark-up language document rank analysis | |
US8346754B2 (en) | Generating succinct titles for web URLs | |
US9411886B2 (en) | Ranking advertisements with pseudo-relevance feedback and translation models | |
Zanasi | Text mining and its applications to intelligence, CRM and knowledge management | |
US20100185689A1 (en) | Enhancing Keyword Advertising Using Wikipedia Semantics | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
JP5710581B2 (ja) | 質問応答装置、方法、及びプログラム | |
US20150100308A1 (en) | Automated Formation of Specialized Dictionaries | |
KR101806452B1 (ko) | 텍스트 마이닝을 기반으로 한 상품 자동 매핑 방법 및 장치 | |
JP5427694B2 (ja) | 関連コンテンツ提示装置及びプログラム | |
Gencosman et al. | Character n-gram application for automatic new topic identification | |
US20130110594A1 (en) | Ad copy determination | |
Selamat et al. | Word-length algorithm for language identification of under-resourced languages | |
Luo et al. | Training deep ranking model with weak relevance labels | |
Juan | An effective similarity measurement for FAQ question answering system | |
Kanakaraj et al. | NLP based intelligent news search engine using information extraction from e-newspapers | |
CN106708808B (zh) | 一种信息挖掘方法及装置 | |
Veningston et al. | Semantic association ranking schemes for information retrieval applications using term association graph representation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121005 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130903 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130910 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20131004 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131108 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131126 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131202 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5427694 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |