JP6285341B2

JP6285341B2 - スニペット生成装置、スニペット生成方法及びスニペット生成プログラム

Info

Publication number: JP6285341B2
Application number: JP2014234090A
Authority: JP
Inventors: 伊藤　淳; 淳伊藤; 結城遠藤; 浩之戸田; 義昌小池
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-11-19
Filing date: 2014-11-19
Publication date: 2018-02-28
Anticipated expiration: 2034-11-19
Also published as: JP2016099686A

Description

本発明は情報抽出技術及び情報検索技術の分野において特にスニペットを生成する技術に関する。

ウェブ検索を助けるために、検索クエリを含むようなテキストの一部をウェブページから抽出し、検索結果一覧ページの表示項目としてユーザに提示することが行われている。このテキストのことをスニペットと呼ぶ。このスニペットの存在によって、ウェブページに訪問せずとも、検索クエリで期待していた内容が記述されたウェブページであるかを、検索結果一覧ページ上において、ある程度判断することができる。

スニペットを生成する最も単純な方法は、ウェブページ上のメニューや広告などを除いた本文テキスト（コンテンツ）の先頭から、予め定められた一定量の文章を抜き出す方法である。ニュース記事などでは、文頭に記事の概要が記述されることがあり、有用な方法である。また、従来技術（非特許文献１）では、ウェブページにおいて検索クエリを含む一定量の文章を抜き出すことが行われている。検索クエリ付近の文章は、検索意図を満たす情報が記述されていることが多く、有用な方法である。

Offer Drori, The Benefits of Displaying Additional Internal Document Information on Textual Database Search Result Lists, in Proceedings of ECDL, 2000. Leonard Richardson, Beautiful Soup 4.3.2 , Beautiful Soup : We called him Tortoise because he taught us , ［online］ ,October 2, 2013 , Beautiful Soup , ［平成２６年１１月１３日検索］ , インターネット , <http://www.crummy.com/software/BeautifulSoup> Jianbo Shi and Jitendra Malik, Normalized Cuts and Image Segmentation, IEEE Transactions on Pattern Analysis and Machine Intelligence archive, Volume 22, Issue 8, pp.888-905, 2000. Kuniko SAITO and Masaaki NAGATA, Multi-Language Named-Entity Recognition System based on HMM, in Proceedings of ACL Workshop on MuLNER, pp.41-48, 2003.

しかしながら、スニペットを生成する最も単純な方法では、文頭にウェブページの概要が記述されていない場合に適切なスニペットが生成できない。特に、スニペットとして採用すべき部分がウェブページ上に点在している場合に対応できない。

従来技術では、スニペットとして採用すべき部分がウェブページ上に点在している場合に対応しているが、検索クエリを含む一定量の文章を具体的にどの程度の量に定めるべきかわからない。また、スニペット長は検索クエリとウェブページの内容に応じて柔軟に定められるべきであるが、それができない。さらに、この方法では検索クエリ中の単語のみに着目しており、クエリの言い換え表現や関連語などを明示的にスニペットに含めることができない。

本発明は、上記の事情に鑑み、検索クエリに基づき構造化文書からスニペットを適切に生成することを課題とする。

そこで、本発明は、検索クエリに基づき構造化文書からスニペットを生成するにあたり、先ず、構造化文書の木構造におけるノード間の類似度に基づきノードをクラスタリングする。次いで、クラスタに含まれるクエリの出現頻度等に基づき当該クラスタにスコアを付与する。そして、生成されるスニペットの長さが閾値以下若しくは未満となる前記スコアが上位のクラスタを当該スニペットの要素の候補として選択し、この選択した要素を前記構造化文書における出現順に並び替えてスニペットを生成する。

本発明のスニペット生成装置の態様としては、検索クエリに基づき構造化文書からスニペットを生成するスニペット生成装置であって、構造化文書を構文解析により当該文書を構成する各ノードをツリー構造に展開して当該構造から当該文書のタイトルとコンテンツのノードを抽出するツリー構築手段と、前記ツリー構造の各ノード間の類似度に基づき当該各ノードをクラスタリングするクラスタ生成手段と、前記クラスタリングによって生成されたクラスタに含まれる検索クエリの単語とその関連語と固有表現の重み付き線形和に基づき当該クラスタに対して付与されるスコアを算出するスコア付与手段と、生成されるスニペットの長さが閾値以下または未満となる前記スコアが上位のクラスタを当該スニペットの要素の候補として選択してこの選択したクラスタを前記構造化文書における出現順に並び替えてスニペットとして生成するスニペット生成手段とを備える。

また、本発明のスニペット生成方法の態様としては、検索クエリに基づき構造化文書からスニペットを生成するスニペット生成装置が実行するスニペット生成方法であって、構造化文書を構文解析により当該文書を構成する各ノードをツリー構造に展開して当該構造から当該文書のタイトルとコンテンツのノードを抽出するツリー構築ステップと、前記ツリー構造の各ノード間の類似度に基づき当該各ノードをクラスタリングするクラスタ生成ステップと、前記クラスタリングによって生成されたクラスタに含まれる検索クエリの単語とその関連語と固有表現の重み付き線形和に基づき当該クラスタに対して付与されるスコアを算出するスコア付与ステップと、生成されるスニペットの長さが閾値以下または未満となる前記スコアが上位のクラスタを当該スニペットの要素の候補として選択してこの選択したクラスタを前記構造化文書における出現順に並び替えてスニペットとして生成するスニペット生成ステップとを有する。

尚、本発明は上記装置の各手段としてコンピュータを機能させるプログラムまたは上記方法のステップをコンピュータに実行させるプログラムの態様とすることもできる。

以上の発明によれば検索クエリに基づき構造化文書からスニペットを適切に生成できる。

本発明の実施形態としてのスニペット生成装置のブロック構成図。同実施形態におけるＤＯＭツリー構築のフローチャート。同実施形態におけるクラスタ生成のフローチャート。同実施形態におけるスコア付与のフローチャート。同実施形態におけるスニペット生成のフローチャート。ＸＰａｔｈデータベースのデータ構造の一例。関連語データベースのデータ構造の一例。スニペットデータベースのデータ構造の一例。

以下、図面を参照しながら本発明の実施の形態について説明するが本発明はこの実施形態に限定されるものではない。

［概要］
図１に示された本実施形態のスニペット生成装置１は、構造化文書の一態様であるＨＴＭＬ文書２から検索クエリ３に基づきＨＴＭＬ文書２のスニペットを生成する。すなわち、先ず、ＨＴＭＬ文書２のＤＯＭツリーにおけるノード間の類似度からＨＴＭＬ文書２のノードをクラスタリングする。次いで、この得られたクラスタに含まれるクエリの出現頻度等に基づき当該クラスタにスコアを付与する。そして、生成されるスニペットの長さが閾値以下若しくは未満となる前記スコアが上位のクラスタを当該スニペットの要素の候補として選択し、この選択した要素をＨＴＭＬ文書における出現順に並び替えてスニペットを生成する。

［装置の構成］
スニペット生成装置１は、図１に示されたように、ＤＯＭツリー構築部１１、クラスタ生成部１２、スコア付与部１３、スニペット生成部１４を備える。

ＤＯＭツリー構築部１１は、ＨＴＭＬ文書２をパース（構文解析）してＤＯＭツリーを構築し、このＤＯＭツリーからＸＰａｔｈＤＢ１５に保存されたＨＴＭＬ文書２のＸＰａｔｈに基づきＨＴＭＬ文書２のタイトルとコンテンツのノードのみを抽出する。図６に例示されたＸＰａｔｈＤＢ１５は、ＨＴＭＬ文書２を開示したＵＲＬ、タイトルまたはコンテンツを示すタイプ、タイプへのＸＰａｔｈを保存している。

クラスタ生成部１２は、ＤＯＭツリーにおけるノード間の類似度に基づきＤＯＭツリーの各ノードをクラスタリングする。

スコア付与部１３は、検索クエリ３の単語と、関連語ＤＢ１６から取得した前記単語と関連する関連語と、ＨＴＭＬ文書２に含まれる固有表現とに基づき、各クラスタに対してスコアを付与する。図７に例示された関連語ＤＢ１６は、単語ごとにユニークな単語ＩＤ、単語、単語の関連語を該当する単語ＩＤの羅列としたものを保存する。

スニペット生成部１４は、生成されるスニペットの長さが閾値以下若しくは未満となる前記スコアが上位のクラスタをスニペットの要素の候補として選択し、この選択したクラスタをＨＴＭＬ文書２における出現順に並び替えてスニペットとして生成する。そして、この生成したスニペットをスニペットＤＢ１７に保存する。

以上のスニペット生成装置１の各機能部１１〜１７はコンピュータのハードウェアリソースによって実現される。すなわち、スニペット生成装置１は、少なくとも演算装置（ＣＰＵ）、記憶装置（メモリ、ハードディスク装置等）、通信インタフェース等のコンピュータに係るハードウェアリソースを備える。そして、これらのハードウェアリソースがソフトウェアリソース（ＯＳ、アプリケーション等）と協働することにより各機能部１１〜１７が実装される。また、各々のコンピュータに機能部１１〜１７を各々実装させるようにしてもよい。

［スニペット生成過程の説明］
図１〜８を参照して本実施形態におけるスニペット生成過程について説明する。

Ｓ１：ＤＯＭツリー構築部１１は、ＨＴＭＬ文書２をパース（構文解析）してＤＯＭツリーを構築し、このＤＯＭツリーからＸＰａｔｈＤＢ１５に保存されたＨＴＭＬ文書２のＸＰａｔｈに基づきＨＴＭＬ文書２のタイトルとコンテンツのノードのみを抽出する。

図２を参照してステップＳ１の具体的なステップＳ１０１〜Ｓ１０７について説明する。

Ｓ１０１：入力されたＨＴＭＬ文書２をＨＴＭＬパーサによって構文解析してＤＯＭツリーを構築する。前記パーサとしては例えば非特許文献２に開示された周知のパーサが用いられる。

Ｓ１０２：ＨＴＭＬ文書２を開示するＵＲＬに基づきＸＰａｔｈＤＢ１５を検索し、タイトルのＸＰａｔｈを取得する。もし検索がヒットしなければ、「/html/head/title」をタイトルのＸＰａｔｈとして用いる。

Ｓ１０３：前記取得したタイトルのＸＰａｔｈを用いてＨＴＭＬ文書２からタイトルノードを抽出する。

Ｓ１０４：ＨＴＭＬ文書２を開示するＵＲＬに基づきＸＰａｔｈＤＢ１５を参照して当該文書２のコンテンツのＸＰａｔｈを取得する。もし検索がヒットしなければ、「/html/body」をコンテンツのＸＰａｔｈとして用いる。

Ｓ１０５：前記取得したコンテンツのＸＰａｔｈを用いてＨＴＭＬ文書２からコンテンツノードを抽出する。

Ｓ１０６：予め定められたストップタグをコンテンツノードから除外する。ストップタグには、例えば、ｓｃｒｉｐｔタグ、ｓｔｙｌｅタグ、ｉｆｒａｍｅタグなどを設定する。コンテンツと関係がないと思われれば、これら以外のタグをストップタグとしても良い。

Ｓ１０７：抽出したタイトルノードとコンテンツノードでＤＯＭツリーを再構築する。これにより、Ｓ１０１で構築されたＤＯＭツリーにおいてタイトルノードとコンテンツノードのみが残される。

Ｓ２：クラスタ生成部１２は、ＤＯＭツリーにおけるノード間の距離（類似度）に基づきＤＯＭツリーの各ノードをクラスタリングする。

図３を参照してステップＳ２の具体的なステップＳ２０１〜Ｓ２０３について説明する。

Ｓ２０１：ＤＯＭツリー上のノード間の距離（近さ）に基づく類似度行列を算出する。以下に類似度を算出する実施の一例を示す。

式（１）（２）において、ｘはノードのＸＰａｔｈ、ｐは２つのノードが共通して持つ親ノード、ｂは定数である。共通の親ノードとは、２つのノードに共通の上位ノードで、その中でも最下層（最直近）のノードのことを指す。また、Ｓｉｍは与えられたノード間の類似度、Ｄｉｓｔは与えられたノード間の距離、Ｃｉｄｘは与えられたＸＰａｔｈにおける与えられたノードの子ノードのインデックス、ＭａｘＤｅｐｔｈは与えられたＸＰａｔｈの最大の深さを示す。例えば、ｘ₁＝/html/body/div[1]/div[1]/p[1]/text、ｘ₂＝/html/body/div[1]/div[3]/textの場合を考える。ルートノードであるｈｔｍｌは深さ０なので、ＭａｘＤｅｐｔｈ（ｘ₁）=５，ＭａｘＤｅｐｔｈ（ｘ₂）＝４となる。また、共通の親はｐ＝ｄｉｖ［１］（深さ２）である。したがって、Ｃｉｄｘ（ｘ₁，ｐ）＝１（深さ３のｄｉｖ［１］）、Ｃｉｄｘ（ｘ₂，ｐ）＝３（深さ３のｄｉｖ［３］）となる。ｂ＝２とすると、式（２）は、以下の式となる。

したがって、式（１）から類似度は、以下の計算で算出される。

距離の値がマイナスになることはないので、類似度の値域は（０，１）となる。全てのノードの組み合わせで類似度の計算を行い、類似度行列を算出する。類似度行列は対称行列となり、その対角成分は１となる。

Ｓ２０２：クラスタ数｜Ｃ｜を算出する。例えば、抽出したノード数Ｎの累乗根（√）の値を用いる。他の方法で算出しても良いが、クラスタ数｜Ｃ｜は抽出したノード数Ｎに対して、１＜｜Ｃ｜＜Ｎを満たさなくてはならない。

Ｓ２０３：類似度行列とクラスタ数を利用してクラスタリングを行う。クラスタリング法としては、例えば、非特許文献３に開示されたスペクトラルクラスタリング等の周知のクラスタリング法が用いられる。また、この方法以外の周知のクラスタリング手法を用いても良い。

Ｓ３：スコア付与部１３は、検索クエリ３の単語と、関連語ＤＢ１６から取得した前記単語と関連する関連語と、ＨＴＭＬ文書２に含まれる固有表現とに基づき、各クラスタに対してスコアを付与する。

図４を参照してステップＳ３の具体的なステップＳ３０１〜Ｓ３０４について説明する。

Ｓ３０１：ＨＴＭＬ文書２のテキストから固有表現を抽出する。固有表現抽出には、例えば、非特許文献４に開示されたNameLister等の周知の固有表現抽出器が用いられる。

Ｓ３０２：検索クエリ３の関連語を関連語ＤＢ１６から取得する。

Ｓ３０３：全クラスタのスコアを算出する。実施の一例として、以下のようにクラスタｃのスコアを算出する。

式（３）において、ｗはクラスタｃに含まれるクエリ中の単語、固有表現、関連語である。Ｗｅｉｇｈｔは入力された単語の重みを返す関数である。例えば、クエリ中の単語は４、固有表現は２、関連語は１などのように、入力された単語の種類に応じて重みを返す。これ以外の重みを定義して用いても良い。Ｃｏｕｎｔは入力された検索クエリ３の単語のＨＴＭＬ文書における出現回数を返す。式（３）により、クラスタｃは単語の重み付き線形和によって表現される。尚、これ以外の方法でスコアを算出しても良い。全クラスタにおいて、同様にしてスコアを算出する。

Ｓ３０４：スコアが０となったクラスタをフィルタし、除外する。

Ｓ４：スニペット生成部１４は、生成されるスニペットの長さが閾値以下若しくは未満となる前記スコアが上位のクラスタをスニペットの要素の候補として選択し、この選択したクラスタをＨＴＭＬ文書２における出現順に並び替えてスニペットとして生成する。

図５を参照してステップＳ４の具体的なステップＳ４０１〜Ｓ４０７について説明する。

Ｓ４０１：クラスタ数｜Ｃ｜に応じてスニペット長の閾値を算出する。実施の一例として、以下の式（４）の演算によってスニペット長の閾値ｌを算出する。

式（４）において、α，βは定数であり、例えば、α＝２０，β＝５０を用いる。これにより、クラスタ数に応じて線形にスニペット長の閾値が大きくなる。ＨＴＭＬ文書２が長いとクラスタ数も多くなるため、その分スニペット長も長くなるべきである。式（４）はこれを表現している。尚、これ以外の方法でスニペット長の閾値を算出しても良い。スニペットの表示領域が限定されているならば、固定長の閾値を設定しても良い。

Ｓ４０２：トップスコアのクラスタをポップしてスニペット候補に追加する。ポップとは、要素を取得した後、元の場所からはその要素を削除することを意味する。これにより、現在のクラスタからトップスコアのクラスタは消え、スニペット候補にトップスコアのクラスタが追加される。

Ｓ４０３：クラスタが空でないか確認する。空でなければステップＳ４０４を実行し、空であればステップＳ４０６を実行する。

Ｓ４０４：スニペット候補が持つテキスト長が閾値より小さいか確認する。小さければステップＳ４０５を、そうでなければステップＳ４０６を実行する。

Ｓ４０５：トップスコアのクラスタをポップしてスニペット候補に追加する。

Ｓ４０６：スニペット候補をＨＴＭＬ文書２での出現順に並び替える。

Ｓ４０７：スニペット候補からスニペットを生成する。この時、スニペット長の閾値からはみ出た分だけ、スニペットの末尾の文字を削り、省略を意味する「…」などの文字を付与する。生成されたスニペットをスニペットＤＢ１７に保存する。

図８に例示されたスニペットＤＢ１７は、ＨＴＭＬ文書２が開示したＵＲＬ、検索クエリ３、以上のステップＳ１〜Ｓ４によって生成されたスニペットを保存している。

［本実施形態の効果］
以上説明したように、本実施形態のスニペット生成装置１によれば、検索クエリ３に基づきＨＴＭＬ文書２からスニペットが生成される際、ＨＴＭＬ文書２を構成する各ノードがＤＯＭツリーに展開される。そして、このＤＯＭツリーの各ノード間の類似度に基づき各ノードのクラスタリングが行われる。したがって、明示的に構造化された文書であるＨＴＭＬ文書２のＤＯＭツリーの態様に応じてスニペットが適切な文書量で生成できる。

特に、ＨＴＭＬ文書２からタイトルのコンテンツのノードを抽出する際、タイトルの所在を示すパス及び前記文書２のコンテンツの所在を示すパスを格納したＸＰａｔｈＤＢ１５を参照することにより前記タイトルとコンテンツのノードを効率的に抽出できる。

また、ＤＯＭツリーのノードのクラスタの生成にあたり、当該ツリーの各ノード間の距離に基づき各ノード間の類似度が算出されることにより、各ノード間の距離に依存したクラスタを得ることができる。

さらに、ＨＴＭＬ文書２における検索クエリの単語の出現回数を当該クラスタのスコアに対して重み付けすることにより、前記単語の出現回数に依存したクラスタの評価を行える。

そして、前記クラスタのスコアはこのクラスタに含まれる検索クエリの単語，関連語，固有表現の重み付き線形和に基づき定まる。したがって、前記単語，関連語，固有表現の重みを任意に設定することにより、ユーザの検索意図に応じた単語を重視したスニペットを生成するなどのパーソナライズ化を行える。

また、ＨＴＭＬ文書２の長さとこの文書に含まれる単語（検索クエリの単語とその関連語、固有表現）の数に応じて変化するクラスタ数に依存してスニペット長の閾値が決定される。したがって、検索クエリとウェブページの内容に応じてスニペット長を柔軟に定めることができる。

さらに、検索クエリの単語ばかりではなくその関連語と固有表現の重みがスニペットの生成に供されるクラスタのスコアの計算に供されるので、検索クエリの言い換え表現や関連語等を明示的にスニペットに含めることができる。

［本発明の他の態様］
本発明は、スニペット生成装置１を構成する上記の機能部１１〜１７の一部若しくは全てとしてコンピュータを機能させるプログラムで構成しこれを当該コンピュータに実行させることにより実現できる。または、同装置１が実行する上記のステップＳ１〜Ｓ４の一部若しくは全てをコンピュータに実行させるプログラムで構成しこれを当該コンピュータに実行させることにより実現できる。そして、このプログラムをそのコンピュータが読み取り可能な周知の記録媒体（例えば、ハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ等）に格納して提供できる。または、前記プログラムをインターネットや電子メール等でネットワークを介して提供できる。

尚、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更、応用が可能である。例えば、上記の実施形態の説明は構造化文書がＨＴＭＬ文書である場合の事例に基づくものであるが、ＨＴＭＬ文書以外の構造化文書からも本発明はスニペットを適切に生成できる。

１…スニペット生成装置
１１…ＤＯＭツリー構築部（ツリー構築手段）
１２…クラスタ生成部（クラスタ生成手段）
１３…スコア付与部（スコア付与手段）
１４…スニペット生成部（スニペット生成手段）
１５…ＸＰａｔｈＤＢ（ＸＰａｔｈデータベース）
１６…関連語ＤＢ（関連語データベース）
１７…スニペットＤＢ（スニペットデータベース）

Claims

検索クエリに基づき構造化文書からスニペットを生成するスニペット生成装置であって、
構造化文書を構文解析により当該文書を構成する各ノードをツリー構造に展開して当該構造から当該文書のタイトルとコンテンツのノードを抽出するツリー構築手段と、
前記ツリー構造の各ノード間の類似度に基づき当該各ノードをクラスタリングするクラスタ生成手段と、
前記クラスタリングによって生成されたクラスタに含まれる検索クエリの単語とその関連語と固有表現の重み付き線形和に基づき当該クラスタに対して付与されるスコアを算出するスコア付与手段と、
生成されるスニペットの長さが閾値以下または未満となる前記スコアが上位のクラスタを当該スニペットの要素の候補として選択してこの選択したクラスタを前記構造化文書における出現順に並び替えてスニペットとして生成するスニペット生成手段と
を備えたことを特徴とするスニペット生成装置。
前記スニペット生成手段は、前記クラスタ生成手段によって生成されたクラスタの数に基づき前記スニペットの長さの閾値を定めること
を特徴とする請求項１に記載のスニペット生成装置。
前記スコア付与手段は、前記構造化文書における前記単語の出現回数を当該クラスタのスコアに対して重み付けすること
を特徴とする請求項１または２に記載のスニペット生成装置。
前記クラスタ生成手段は、前記各ノード間の距離に基づき当該各ノード間の類似度を算出すること
を特徴とする請求項１から３のいずれか１項に記載のスニペット生成装置。
前記ツリー構築手段は、前記構造化文書のタイトルの所在を示すパス及び当該文書のコンテンツの所在を示すパスを格納したパスデータベースを参照して前記タイトルとコンテンツのノードを抽出すること
を特徴とする請求項１から４のいずれか１項に記載のスニペット生成装置。
検索クエリに基づき構造化文書からスニペットを生成するスニペット生成装置が実行するスニペット生成方法であって、
構造化文書を構文解析により当該文書を構成する各ノードをツリー構造に展開して当該構造から当該文書のタイトルとコンテンツのノードを抽出するツリー構築ステップと、
前記ツリー構造の各ノード間の類似度に基づき当該各ノードをクラスタリングするクラスタ生成ステップと、
前記クラスタリングによって生成されたクラスタに含まれる検索クエリの単語とその関連語と固有表現の重み付き線形和に基づき当該クラスタに対して付与されるスコアを算出するスコア付与ステップと、
生成されるスニペットの長さが閾値以下または未満となる前記スコアが上位のクラスタを当該スニペットの要素の候補として選択してこの選択したクラスタを前記構造化文書における出現順に並び替えてスニペットとして生成するスニペット生成ステップと
を有することを特徴とするスニペット生成方法。
コンピュータを請求項１から５のいずれか１項に記載のスニペット生成装置を構成する各手段として機能させることを特徴とするスニペット生成プログラム。