JP6285341B2 - スニペット生成装置、スニペット生成方法及びスニペット生成プログラム - Google Patents

スニペット生成装置、スニペット生成方法及びスニペット生成プログラム Download PDF

Info

Publication number
JP6285341B2
JP6285341B2 JP2014234090A JP2014234090A JP6285341B2 JP 6285341 B2 JP6285341 B2 JP 6285341B2 JP 2014234090 A JP2014234090 A JP 2014234090A JP 2014234090 A JP2014234090 A JP 2014234090A JP 6285341 B2 JP6285341 B2 JP 6285341B2
Authority
JP
Japan
Prior art keywords
snippet
cluster
nodes
document
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014234090A
Other languages
English (en)
Other versions
JP2016099686A (ja
Inventor
伊藤 淳
淳 伊藤
結城 遠藤
結城 遠藤
浩之 戸田
浩之 戸田
義昌 小池
義昌 小池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014234090A priority Critical patent/JP6285341B2/ja
Publication of JP2016099686A publication Critical patent/JP2016099686A/ja
Application granted granted Critical
Publication of JP6285341B2 publication Critical patent/JP6285341B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は情報抽出技術及び情報検索技術の分野において特にスニペットを生成する技術に関する。
ウェブ検索を助けるために、検索クエリを含むようなテキストの一部をウェブページから抽出し、検索結果一覧ページの表示項目としてユーザに提示することが行われている。このテキストのことをスニペットと呼ぶ。このスニペットの存在によって、ウェブページに訪問せずとも、検索クエリで期待していた内容が記述されたウェブページであるかを、検索結果一覧ページ上において、ある程度判断することができる。
スニペットを生成する最も単純な方法は、ウェブページ上のメニューや広告などを除いた本文テキスト(コンテンツ)の先頭から、予め定められた一定量の文章を抜き出す方法である。ニュース記事などでは、文頭に記事の概要が記述されることがあり、有用な方法である。また、従来技術(非特許文献1)では、ウェブページにおいて検索クエリを含む一定量の文章を抜き出すことが行われている。検索クエリ付近の文章は、検索意図を満たす情報が記述されていることが多く、有用な方法である。
Offer Drori, The Benefits of Displaying Additional Internal Document Information on Textual Database Search Result Lists, in Proceedings of ECDL, 2000. Leonard Richardson, Beautiful Soup 4.3.2 , Beautiful Soup : We called him Tortoise because he taught us , [online] ,October 2, 2013 , Beautiful Soup , [平成26年11月13日検索] , インターネット , <http://www.crummy.com/software/BeautifulSoup> Jianbo Shi and Jitendra Malik, Normalized Cuts and Image Segmentation, IEEE Transactions on Pattern Analysis and Machine Intelligence archive, Volume 22, Issue 8, pp.888-905, 2000. Kuniko SAITO and Masaaki NAGATA, Multi-Language Named-Entity Recognition System based on HMM, in Proceedings of ACL Workshop on MuLNER, pp.41-48, 2003.
しかしながら、スニペットを生成する最も単純な方法では、文頭にウェブページの概要が記述されていない場合に適切なスニペットが生成できない。特に、スニペットとして採用すべき部分がウェブページ上に点在している場合に対応できない。
従来技術では、スニペットとして採用すべき部分がウェブページ上に点在している場合に対応しているが、検索クエリを含む一定量の文章を具体的にどの程度の量に定めるべきかわからない。また、スニペット長は検索クエリとウェブページの内容に応じて柔軟に定められるべきであるが、それができない。さらに、この方法では検索クエリ中の単語のみに着目しており、クエリの言い換え表現や関連語などを明示的にスニペットに含めることができない。
本発明は、上記の事情に鑑み、検索クエリに基づき構造化文書からスニペットを適切に生成することを課題とする。
そこで、本発明は、検索クエリに基づき構造化文書からスニペットを生成するにあたり、先ず、構造化文書の木構造におけるノード間の類似度に基づきノードをクラスタリングする。次いで、クラスタに含まれるクエリの出現頻度等に基づき当該クラスタにスコアを付与する。そして、生成されるスニペットの長さが閾値以下若しくは未満となる前記スコアが上位のクラスタを当該スニペットの要素の候補として選択し、この選択した要素を前記構造化文書における出現順に並び替えてスニペットを生成する。
本発明のスニペット生成装置の態様としては、検索クエリに基づき構造化文書からスニペットを生成するスニペット生成装置であって、構造化文書を構文解析により当該文書を構成する各ノードをツリー構造に展開して当該構造から当該文書のタイトルとコンテンツのノードを抽出するツリー構築手段と、前記ツリー構造の各ノード間の類似度に基づき当該各ノードをクラスタリングするクラスタ生成手段と、前記クラスタリングによって生成されたクラスタに含まれる検索クエリの単語とその関連語と固有表現の重み付き線形和に基づき当該クラスタに対して付与されるスコアを算出するスコア付与手段と、生成されるスニペットの長さが閾値以下または未満となる前記スコアが上位のクラスタを当該スニペットの要素の候補として選択してこの選択したクラスタを前記構造化文書における出現順に並び替えてスニペットとして生成するスニペット生成手段とを備える。
また、本発明のスニペット生成方法の態様としては、検索クエリに基づき構造化文書からスニペットを生成するスニペット生成装置が実行するスニペット生成方法であって、構造化文書を構文解析により当該文書を構成する各ノードをツリー構造に展開して当該構造から当該文書のタイトルとコンテンツのノードを抽出するツリー構築ステップと、前記ツリー構造の各ノード間の類似度に基づき当該各ノードをクラスタリングするクラスタ生成ステップと、前記クラスタリングによって生成されたクラスタに含まれる検索クエリの単語とその関連語と固有表現の重み付き線形和に基づき当該クラスタに対して付与されるスコアを算出するスコア付与ステップと、生成されるスニペットの長さが閾値以下または未満となる前記スコアが上位のクラスタを当該スニペットの要素の候補として選択してこの選択したクラスタを前記構造化文書における出現順に並び替えてスニペットとして生成するスニペット生成ステップとを有する。
尚、本発明は上記装置の各手段としてコンピュータを機能させるプログラムまたは上記方法のステップをコンピュータに実行させるプログラムの態様とすることもできる。
以上の発明によれば検索クエリに基づき構造化文書からスニペットを適切に生成できる。
本発明の実施形態としてのスニペット生成装置のブロック構成図。 同実施形態におけるDOMツリー構築のフローチャート。 同実施形態におけるクラスタ生成のフローチャート。 同実施形態におけるスコア付与のフローチャート。 同実施形態におけるスニペット生成のフローチャート。 XPathデータベースのデータ構造の一例。 関連語データベースのデータ構造の一例。 スニペットデータベースのデータ構造の一例。
以下、図面を参照しながら本発明の実施の形態について説明するが本発明はこの実施形態に限定されるものではない。
[概要]
図1に示された本実施形態のスニペット生成装置1は、構造化文書の一態様であるHTML文書2から検索クエリ3に基づきHTML文書2のスニペットを生成する。すなわち、先ず、HTML文書2のDOMツリーにおけるノード間の類似度からHTML文書2のノードをクラスタリングする。次いで、この得られたクラスタに含まれるクエリの出現頻度等に基づき当該クラスタにスコアを付与する。そして、生成されるスニペットの長さが閾値以下若しくは未満となる前記スコアが上位のクラスタを当該スニペットの要素の候補として選択し、この選択した要素をHTML文書における出現順に並び替えてスニペットを生成する。
[装置の構成]
スニペット生成装置1は、図1に示されたように、DOMツリー構築部11、クラスタ生成部12、スコア付与部13、スニペット生成部14を備える。
DOMツリー構築部11は、HTML文書2をパース(構文解析)してDOMツリーを構築し、このDOMツリーからXPathDB15に保存されたHTML文書2のXPathに基づきHTML文書2のタイトルとコンテンツのノードのみを抽出する。図6に例示されたXPathDB15は、HTML文書2を開示したURL、タイトルまたはコンテンツを示すタイプ、タイプへのXPathを保存している。
クラスタ生成部12は、DOMツリーにおけるノード間の類似度に基づきDOMツリーの各ノードをクラスタリングする。
スコア付与部13は、検索クエリ3の単語と、関連語DB16から取得した前記単語と関連する関連語と、HTML文書2に含まれる固有表現とに基づき、各クラスタに対してスコアを付与する。図7に例示された関連語DB16は、単語ごとにユニークな単語ID、単語、単語の関連語を該当する単語IDの羅列としたものを保存する。
スニペット生成部14は、生成されるスニペットの長さが閾値以下若しくは未満となる前記スコアが上位のクラスタをスニペットの要素の候補として選択し、この選択したクラスタをHTML文書2における出現順に並び替えてスニペットとして生成する。そして、この生成したスニペットをスニペットDB17に保存する。
以上のスニペット生成装置1の各機能部11〜17はコンピュータのハードウェアリソースによって実現される。すなわち、スニペット生成装置1は、少なくとも演算装置(CPU)、記憶装置(メモリ、ハードディスク装置等)、通信インタフェース等のコンピュータに係るハードウェアリソースを備える。そして、これらのハードウェアリソースがソフトウェアリソース(OS、アプリケーション等)と協働することにより各機能部11〜17が実装される。また、各々のコンピュータに機能部11〜17を各々実装させるようにしてもよい。
[スニペット生成過程の説明]
図1〜8を参照して本実施形態におけるスニペット生成過程について説明する。
S1:DOMツリー構築部11は、HTML文書2をパース(構文解析)してDOMツリーを構築し、このDOMツリーからXPathDB15に保存されたHTML文書2のXPathに基づきHTML文書2のタイトルとコンテンツのノードのみを抽出する。
図2を参照してステップS1の具体的なステップS101〜S107について説明する。
S101:入力されたHTML文書2をHTMLパーサによって構文解析してDOMツリーを構築する。前記パーサとしては例えば非特許文献2に開示された周知のパーサが用いられる。
S102:HTML文書2を開示するURLに基づきXPathDB15を検索し、タイトルのXPathを取得する。もし検索がヒットしなければ、「/html/head/title」をタイトルのXPathとして用いる。
S103:前記取得したタイトルのXPathを用いてHTML文書2からタイトルノードを抽出する。
S104:HTML文書2を開示するURLに基づきXPathDB15を参照して当該文書2のコンテンツのXPathを取得する。もし検索がヒットしなければ、「/html/body」をコンテンツのXPathとして用いる。
S105:前記取得したコンテンツのXPathを用いてHTML文書2からコンテンツノードを抽出する。
S106:予め定められたストップタグをコンテンツノードから除外する。ストップタグには、例えば、scriptタグ、styleタグ、iframeタグなどを設定する。コンテンツと関係がないと思われれば、これら以外のタグをストップタグとしても良い。
S107:抽出したタイトルノードとコンテンツノードでDOMツリーを再構築する。これにより、S101で構築されたDOMツリーにおいてタイトルノードとコンテンツノードのみが残される。
S2:クラスタ生成部12は、DOMツリーにおけるノード間の距離(類似度)に基づきDOMツリーの各ノードをクラスタリングする。
図3を参照してステップS2の具体的なステップS201〜S203について説明する。
S201:DOMツリー上のノード間の距離(近さ)に基づく類似度行列を算出する。以下に類似度を算出する実施の一例を示す。
Figure 0006285341
式(1)(2)において、xはノードのXPath、pは2つのノードが共通して持つ親ノード、bは定数である。共通の親ノードとは、2つのノードに共通の上位ノードで、その中でも最下層(最直近)のノードのことを指す。また、Simは与えられたノード間の類似度、Distは与えられたノード間の距離、Cidxは与えられたXPathにおける与えられたノードの子ノードのインデックス、MaxDepthは与えられたXPathの最大の深さを示す。例えば、x1=/html/body/div[1]/div[1]/p[1]/text、x2=/html/body/div[1]/div[3]/textの場合を考える。ルートノードであるhtmlは深さ0なので、MaxDepth(x1)=5,MaxDepth(x2)=4となる。また、共通の親はp=div[1](深さ2)である。したがって、Cidx(x1,p)=1(深さ3のdiv[1])、Cidx(x2,p)=3(深さ3のdiv[3])となる。b=2とすると、式(2)は、以下の式となる。
Figure 0006285341
したがって、式(1)から類似度は、以下の計算で算出される。
Figure 0006285341
距離の値がマイナスになることはないので、類似度の値域は(0,1)となる。全てのノードの組み合わせで類似度の計算を行い、類似度行列を算出する。類似度行列は対称行列となり、その対角成分は1となる。
S202:クラスタ数|C|を算出する。例えば、抽出したノード数Nの累乗根(√)の値を用いる。他の方法で算出しても良いが、クラスタ数|C|は抽出したノード数Nに対して、1<|C|<Nを満たさなくてはならない。
S203:類似度行列とクラスタ数を利用してクラスタリングを行う。クラスタリング法としては、例えば、非特許文献3に開示されたスペクトラルクラスタリング等の周知のクラスタリング法が用いられる。また、この方法以外の周知のクラスタリング手法を用いても良い。
S3:スコア付与部13は、検索クエリ3の単語と、関連語DB16から取得した前記単語と関連する関連語と、HTML文書2に含まれる固有表現とに基づき、各クラスタに対してスコアを付与する。
図4を参照してステップS3の具体的なステップS301〜S304について説明する。
S301:HTML文書2のテキストから固有表現を抽出する。固有表現抽出には、例えば、非特許文献4に開示されたNameLister等の周知の固有表現抽出器が用いられる。
S302:検索クエリ3の関連語を関連語DB16から取得する。
S303:全クラスタのスコアを算出する。実施の一例として、以下のようにクラスタcのスコアを算出する。
Figure 0006285341
式(3)において、wはクラスタcに含まれるクエリ中の単語、固有表現、関連語である。Weightは入力された単語の重みを返す関数である。例えば、クエリ中の単語は4、固有表現は2、関連語は1などのように、入力された単語の種類に応じて重みを返す。これ以外の重みを定義して用いても良い。Countは入力された検索クエリ3の単語のHTML文書における出現回数を返す。式(3)により、クラスタcは単語の重み付き線形和によって表現される。尚、これ以外の方法でスコアを算出しても良い。全クラスタにおいて、同様にしてスコアを算出する。
S304:スコアが0となったクラスタをフィルタし、除外する。
S4:スニペット生成部14は、生成されるスニペットの長さが閾値以下若しくは未満となる前記スコアが上位のクラスタをスニペットの要素の候補として選択し、この選択したクラスタをHTML文書2における出現順に並び替えてスニペットとして生成する。
図5を参照してステップS4の具体的なステップS401〜S407について説明する。
S401:クラスタ数|C|に応じてスニペット長の閾値を算出する。実施の一例として、以下の式(4)の演算によってスニペット長の閾値lを算出する。
Figure 0006285341
式(4)において、α,βは定数であり、例えば、α=20,β=50を用いる。これにより、クラスタ数に応じて線形にスニペット長の閾値が大きくなる。HTML文書2が長いとクラスタ数も多くなるため、その分スニペット長も長くなるべきである。式(4)はこれを表現している。尚、これ以外の方法でスニペット長の閾値を算出しても良い。スニペットの表示領域が限定されているならば、固定長の閾値を設定しても良い。
S402:トップスコアのクラスタをポップしてスニペット候補に追加する。ポップとは、要素を取得した後、元の場所からはその要素を削除することを意味する。これにより、現在のクラスタからトップスコアのクラスタは消え、スニペット候補にトップスコアのクラスタが追加される。
S403:クラスタが空でないか確認する。空でなければステップS404を実行し、空であればステップS406を実行する。
S404:スニペット候補が持つテキスト長が閾値より小さいか確認する。小さければステップS405を、そうでなければステップS406を実行する。
S405:トップスコアのクラスタをポップしてスニペット候補に追加する。
S406:スニペット候補をHTML文書2での出現順に並び替える。
S407:スニペット候補からスニペットを生成する。この時、スニペット長の閾値からはみ出た分だけ、スニペットの末尾の文字を削り、省略を意味する「…」などの文字を付与する。生成されたスニペットをスニペットDB17に保存する。
図8に例示されたスニペットDB17は、HTML文書2が開示したURL、検索クエリ3、以上のステップS1〜S4によって生成されたスニペットを保存している。
[本実施形態の効果]
以上説明したように、本実施形態のスニペット生成装置1によれば、検索クエリ3に基づきHTML文書2からスニペットが生成される際、HTML文書2を構成する各ノードがDOMツリーに展開される。そして、このDOMツリーの各ノード間の類似度に基づき各ノードのクラスタリングが行われる。したがって、明示的に構造化された文書であるHTML文書2のDOMツリーの態様に応じてスニペットが適切な文書量で生成できる。
特に、HTML文書2からタイトルのコンテンツのノードを抽出する際、タイトルの所在を示すパス及び前記文書2のコンテンツの所在を示すパスを格納したXPathDB15を参照することにより前記タイトルとコンテンツのノードを効率的に抽出できる。
また、DOMツリーのノードのクラスタの生成にあたり、当該ツリーの各ノード間の距離に基づき各ノード間の類似度が算出されることにより、各ノード間の距離に依存したクラスタを得ることができる。
さらに、HTML文書2における検索クエリの単語の出現回数を当該クラスタのスコアに対して重み付けすることにより、前記単語の出現回数に依存したクラスタの評価を行える。
そして、前記クラスタのスコアはこのクラスタに含まれる検索クエリの単語,関連語,固有表現の重み付き線形和に基づき定まる。したがって、前記単語,関連語,固有表現の重みを任意に設定することにより、ユーザの検索意図に応じた単語を重視したスニペットを生成するなどのパーソナライズ化を行える。
また、HTML文書2の長さとこの文書に含まれる単語(検索クエリの単語とその関連語、固有表現)の数に応じて変化するクラスタ数に依存してスニペット長の閾値が決定される。したがって、検索クエリとウェブページの内容に応じてスニペット長を柔軟に定めることができる。
さらに、検索クエリの単語ばかりではなくその関連語と固有表現の重みがスニペットの生成に供されるクラスタのスコアの計算に供されるので、検索クエリの言い換え表現や関連語等を明示的にスニペットに含めることができる。
[本発明の他の態様]
本発明は、スニペット生成装置1を構成する上記の機能部11〜17の一部若しくは全てとしてコンピュータを機能させるプログラムで構成しこれを当該コンピュータに実行させることにより実現できる。または、同装置1が実行する上記のステップS1〜S4の一部若しくは全てをコンピュータに実行させるプログラムで構成しこれを当該コンピュータに実行させることにより実現できる。そして、このプログラムをそのコンピュータが読み取り可能な周知の記録媒体(例えば、ハードディスク、フレキシブルディスク、CD−ROM等)に格納して提供できる。または、前記プログラムをインターネットや電子メール等でネットワークを介して提供できる。
尚、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更、応用が可能である。例えば、上記の実施形態の説明は構造化文書がHTML文書である場合の事例に基づくものであるが、HTML文書以外の構造化文書からも本発明はスニペットを適切に生成できる。
1…スニペット生成装置
11…DOMツリー構築部(ツリー構築手段)
12…クラスタ生成部(クラスタ生成手段)
13…スコア付与部(スコア付与手段)
14…スニペット生成部(スニペット生成手段)
15…XPathDB(XPathデータベース)
16…関連語DB(関連語データベース)
17…スニペットDB(スニペットデータベース)

Claims (7)

  1. 検索クエリに基づき構造化文書からスニペットを生成するスニペット生成装置であって、
    構造化文書を構文解析により当該文書を構成する各ノードをツリー構造に展開して当該構造から当該文書のタイトルとコンテンツのノードを抽出するツリー構築手段と、
    前記ツリー構造の各ノード間の類似度に基づき当該各ノードをクラスタリングするクラスタ生成手段と、
    前記クラスタリングによって生成されたクラスタに含まれる検索クエリの単語とその関連語と固有表現の重み付き線形和に基づき当該クラスタに対して付与されるスコアを算出するスコア付与手段と、
    生成されるスニペットの長さが閾値以下または未満となる前記スコアが上位のクラスタを当該スニペットの要素の候補として選択してこの選択したクラスタを前記構造化文書における出現順に並び替えてスニペットとして生成するスニペット生成手段と
    を備えたことを特徴とするスニペット生成装置。
  2. 前記スニペット生成手段は、前記クラスタ生成手段によって生成されたクラスタの数に基づき前記スニペットの長さの閾値を定めること
    を特徴とする請求項1に記載のスニペット生成装置。
  3. 前記スコア付与手段は、前記構造化文書における前記単語の出現回数を当該クラスタのスコアに対して重み付けすること
    を特徴とする請求項1または2に記載のスニペット生成装置。
  4. 前記クラスタ生成手段は、前記各ノード間の距離に基づき当該各ノード間の類似度を算出すること
    を特徴とする請求項1からのいずれか1項に記載のスニペット生成装置。
  5. 前記ツリー構築手段は、前記構造化文書のタイトルの所在を示すパス及び当該文書のコンテンツの所在を示すパスを格納したパスデータベースを参照して前記タイトルとコンテンツのノードを抽出すること
    を特徴とする請求項1からのいずれか1項に記載のスニペット生成装置。
  6. 検索クエリに基づき構造化文書からスニペットを生成するスニペット生成装置が実行するスニペット生成方法であって、
    構造化文書を構文解析により当該文書を構成する各ノードをツリー構造に展開して当該構造から当該文書のタイトルとコンテンツのノードを抽出するツリー構築ステップと、
    前記ツリー構造の各ノード間の類似度に基づき当該各ノードをクラスタリングするクラスタ生成ステップと、
    前記クラスタリングによって生成されたクラスタに含まれる検索クエリの単語とその関連語と固有表現の重み付き線形和に基づき当該クラスタに対して付与されるスコアを算出するスコア付与ステップと、
    生成されるスニペットの長さが閾値以下または未満となる前記スコアが上位のクラスタを当該スニペットの要素の候補として選択してこの選択したクラスタを前記構造化文書における出現順に並び替えてスニペットとして生成するスニペット生成ステップと
    を有することを特徴とするスニペット生成方法。
  7. コンピュータを請求項1からのいずれか1項に記載のスニペット生成装置を構成する各手段として機能させることを特徴とするスニペット生成プログラム。
JP2014234090A 2014-11-19 2014-11-19 スニペット生成装置、スニペット生成方法及びスニペット生成プログラム Active JP6285341B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014234090A JP6285341B2 (ja) 2014-11-19 2014-11-19 スニペット生成装置、スニペット生成方法及びスニペット生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014234090A JP6285341B2 (ja) 2014-11-19 2014-11-19 スニペット生成装置、スニペット生成方法及びスニペット生成プログラム

Publications (2)

Publication Number Publication Date
JP2016099686A JP2016099686A (ja) 2016-05-30
JP6285341B2 true JP6285341B2 (ja) 2018-02-28

Family

ID=56077898

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014234090A Active JP6285341B2 (ja) 2014-11-19 2014-11-19 スニペット生成装置、スニペット生成方法及びスニペット生成プログラム

Country Status (1)

Country Link
JP (1) JP6285341B2 (ja)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1145289A (ja) * 1997-07-28 1999-02-16 Just Syst Corp 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法
US20080187231A1 (en) * 2005-03-10 2008-08-07 Koninklijke Philips Electronics, N.V. Summarization of Audio and/or Visual Data
JP2012059212A (ja) * 2010-09-13 2012-03-22 Nippon Telegr & Teleph Corp <Ntt> 抽出装置、抽出方法及び抽出プログラム
JP5538185B2 (ja) * 2010-11-12 2014-07-02 日本電信電話株式会社 テキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラム
JP5701830B2 (ja) * 2012-09-04 2015-04-15 日本電信電話株式会社 文書構造解析装置及びプログラム
JP6142617B2 (ja) * 2013-03-27 2017-06-07 大日本印刷株式会社 情報処理装置、情報処理方法及び情報処理用プログラム

Also Published As

Publication number Publication date
JP2016099686A (ja) 2016-05-30

Similar Documents

Publication Publication Date Title
US10140368B2 (en) Method and apparatus for generating a recommendation page
CN110362727B (zh) 用于搜索系统的第三方搜索应用
JP4637181B2 (ja) 文書構造に基づいた検索結果の表示
CN102831246B (zh) 藏文网页分类方法和装置
US8782037B1 (en) System and method for mark-up language document rank analysis
JP6093200B2 (ja) 情報検索装置及び情報検索プログラム
US20180114136A1 (en) Trend identification using multiple data sources and machine learning techniques
US20230177360A1 (en) Surfacing unique facts for entities
US9785704B2 (en) Extracting query dimensions from search results
US8631097B1 (en) Methods and systems for finding a mobile and non-mobile page pair
EP2798540A1 (en) Extracting search-focused key n-grams and/or phrases for relevance rankings in searches
CN108241613A (zh) 一种提取关键词的方法及设备
US20160357857A1 (en) Apparatus, system and method for string disambiguation and entity ranking
KR100954842B1 (ko) 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체
JP2017220204A (ja) 検索クエリに応答してホワイトリストとブラックリストを使用し画像とコンテンツをマッチングする方法及びシステム
KR102076548B1 (ko) 형태소 분석을 활용하여 문서를 관리하는 장치 및 이의 동작 방법
TWI615727B (zh) 資訊處理系統及方法與資訊處理程式
JP2014102827A (ja) 検索システム及びその検索方法
CN107665442B (zh) 获取目标用户的方法及装置
US20030195882A1 (en) Homepage searching method using similarity recalculation based on URL substring relationship
Malhotra et al. Quantitative evaluation of web metrics for automatic genre classification of web pages
JP5179564B2 (ja) クエリセグメント位置決定装置
Shah et al. An automatic text summarization on Naive Bayes classifier using latent semantic analysis
JP6285341B2 (ja) スニペット生成装置、スニペット生成方法及びスニペット生成プログラム
Moumtzidou et al. Discovery of environmental nodes in the web

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171012

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171017

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171215

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180130

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180201

R150 Certificate of patent or registration of utility model

Ref document number: 6285341

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150