JP6285341B2 - スニペット生成装置、スニペット生成方法及びスニペット生成プログラム - Google Patents
スニペット生成装置、スニペット生成方法及びスニペット生成プログラム Download PDFInfo
- Publication number
- JP6285341B2 JP6285341B2 JP2014234090A JP2014234090A JP6285341B2 JP 6285341 B2 JP6285341 B2 JP 6285341B2 JP 2014234090 A JP2014234090 A JP 2014234090A JP 2014234090 A JP2014234090 A JP 2014234090A JP 6285341 B2 JP6285341 B2 JP 6285341B2
- Authority
- JP
- Japan
- Prior art keywords
- snippet
- cluster
- nodes
- document
- score
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1に示された本実施形態のスニペット生成装置1は、構造化文書の一態様であるHTML文書2から検索クエリ3に基づきHTML文書2のスニペットを生成する。すなわち、先ず、HTML文書2のDOMツリーにおけるノード間の類似度からHTML文書2のノードをクラスタリングする。次いで、この得られたクラスタに含まれるクエリの出現頻度等に基づき当該クラスタにスコアを付与する。そして、生成されるスニペットの長さが閾値以下若しくは未満となる前記スコアが上位のクラスタを当該スニペットの要素の候補として選択し、この選択した要素をHTML文書における出現順に並び替えてスニペットを生成する。
スニペット生成装置1は、図1に示されたように、DOMツリー構築部11、クラスタ生成部12、スコア付与部13、スニペット生成部14を備える。
図1〜8を参照して本実施形態におけるスニペット生成過程について説明する。
以上説明したように、本実施形態のスニペット生成装置1によれば、検索クエリ3に基づきHTML文書2からスニペットが生成される際、HTML文書2を構成する各ノードがDOMツリーに展開される。そして、このDOMツリーの各ノード間の類似度に基づき各ノードのクラスタリングが行われる。したがって、明示的に構造化された文書であるHTML文書2のDOMツリーの態様に応じてスニペットが適切な文書量で生成できる。
本発明は、スニペット生成装置1を構成する上記の機能部11〜17の一部若しくは全てとしてコンピュータを機能させるプログラムで構成しこれを当該コンピュータに実行させることにより実現できる。または、同装置1が実行する上記のステップS1〜S4の一部若しくは全てをコンピュータに実行させるプログラムで構成しこれを当該コンピュータに実行させることにより実現できる。そして、このプログラムをそのコンピュータが読み取り可能な周知の記録媒体(例えば、ハードディスク、フレキシブルディスク、CD−ROM等)に格納して提供できる。または、前記プログラムをインターネットや電子メール等でネットワークを介して提供できる。
11…DOMツリー構築部(ツリー構築手段)
12…クラスタ生成部(クラスタ生成手段)
13…スコア付与部(スコア付与手段)
14…スニペット生成部(スニペット生成手段)
15…XPathDB(XPathデータベース)
16…関連語DB(関連語データベース)
17…スニペットDB(スニペットデータベース)
Claims (7)
- 検索クエリに基づき構造化文書からスニペットを生成するスニペット生成装置であって、
構造化文書を構文解析により当該文書を構成する各ノードをツリー構造に展開して当該構造から当該文書のタイトルとコンテンツのノードを抽出するツリー構築手段と、
前記ツリー構造の各ノード間の類似度に基づき当該各ノードをクラスタリングするクラスタ生成手段と、
前記クラスタリングによって生成されたクラスタに含まれる検索クエリの単語とその関連語と固有表現の重み付き線形和に基づき当該クラスタに対して付与されるスコアを算出するスコア付与手段と、
生成されるスニペットの長さが閾値以下または未満となる前記スコアが上位のクラスタを当該スニペットの要素の候補として選択してこの選択したクラスタを前記構造化文書における出現順に並び替えてスニペットとして生成するスニペット生成手段と
を備えたことを特徴とするスニペット生成装置。 - 前記スニペット生成手段は、前記クラスタ生成手段によって生成されたクラスタの数に基づき前記スニペットの長さの閾値を定めること
を特徴とする請求項1に記載のスニペット生成装置。 - 前記スコア付与手段は、前記構造化文書における前記単語の出現回数を当該クラスタのスコアに対して重み付けすること
を特徴とする請求項1または2に記載のスニペット生成装置。 - 前記クラスタ生成手段は、前記各ノード間の距離に基づき当該各ノード間の類似度を算出すること
を特徴とする請求項1から3のいずれか1項に記載のスニペット生成装置。 - 前記ツリー構築手段は、前記構造化文書のタイトルの所在を示すパス及び当該文書のコンテンツの所在を示すパスを格納したパスデータベースを参照して前記タイトルとコンテンツのノードを抽出すること
を特徴とする請求項1から4のいずれか1項に記載のスニペット生成装置。 - 検索クエリに基づき構造化文書からスニペットを生成するスニペット生成装置が実行するスニペット生成方法であって、
構造化文書を構文解析により当該文書を構成する各ノードをツリー構造に展開して当該構造から当該文書のタイトルとコンテンツのノードを抽出するツリー構築ステップと、
前記ツリー構造の各ノード間の類似度に基づき当該各ノードをクラスタリングするクラスタ生成ステップと、
前記クラスタリングによって生成されたクラスタに含まれる検索クエリの単語とその関連語と固有表現の重み付き線形和に基づき当該クラスタに対して付与されるスコアを算出するスコア付与ステップと、
生成されるスニペットの長さが閾値以下または未満となる前記スコアが上位のクラスタを当該スニペットの要素の候補として選択してこの選択したクラスタを前記構造化文書における出現順に並び替えてスニペットとして生成するスニペット生成ステップと
を有することを特徴とするスニペット生成方法。 - コンピュータを請求項1から5のいずれか1項に記載のスニペット生成装置を構成する各手段として機能させることを特徴とするスニペット生成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014234090A JP6285341B2 (ja) | 2014-11-19 | 2014-11-19 | スニペット生成装置、スニペット生成方法及びスニペット生成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014234090A JP6285341B2 (ja) | 2014-11-19 | 2014-11-19 | スニペット生成装置、スニペット生成方法及びスニペット生成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016099686A JP2016099686A (ja) | 2016-05-30 |
JP6285341B2 true JP6285341B2 (ja) | 2018-02-28 |
Family
ID=56077898
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014234090A Active JP6285341B2 (ja) | 2014-11-19 | 2014-11-19 | スニペット生成装置、スニペット生成方法及びスニペット生成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6285341B2 (ja) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1145289A (ja) * | 1997-07-28 | 1999-02-16 | Just Syst Corp | 文書処理装置、文書処理プログラムが記憶された記憶媒体、及び文書処理方法 |
US20080187231A1 (en) * | 2005-03-10 | 2008-08-07 | Koninklijke Philips Electronics, N.V. | Summarization of Audio and/or Visual Data |
JP2012059212A (ja) * | 2010-09-13 | 2012-03-22 | Nippon Telegr & Teleph Corp <Ntt> | 抽出装置、抽出方法及び抽出プログラム |
JP5538185B2 (ja) * | 2010-11-12 | 2014-07-02 | 日本電信電話株式会社 | テキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラム |
JP5701830B2 (ja) * | 2012-09-04 | 2015-04-15 | 日本電信電話株式会社 | 文書構造解析装置及びプログラム |
JP6142617B2 (ja) * | 2013-03-27 | 2017-06-07 | 大日本印刷株式会社 | 情報処理装置、情報処理方法及び情報処理用プログラム |
-
2014
- 2014-11-19 JP JP2014234090A patent/JP6285341B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2016099686A (ja) | 2016-05-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10140368B2 (en) | Method and apparatus for generating a recommendation page | |
CN110362727B (zh) | 用于搜索系统的第三方搜索应用 | |
JP4637181B2 (ja) | 文書構造に基づいた検索結果の表示 | |
CN102831246B (zh) | 藏文网页分类方法和装置 | |
US8782037B1 (en) | System and method for mark-up language document rank analysis | |
JP6093200B2 (ja) | 情報検索装置及び情報検索プログラム | |
US20180114136A1 (en) | Trend identification using multiple data sources and machine learning techniques | |
US20230177360A1 (en) | Surfacing unique facts for entities | |
US9785704B2 (en) | Extracting query dimensions from search results | |
US8631097B1 (en) | Methods and systems for finding a mobile and non-mobile page pair | |
EP2798540A1 (en) | Extracting search-focused key n-grams and/or phrases for relevance rankings in searches | |
CN108241613A (zh) | 一种提取关键词的方法及设备 | |
US20160357857A1 (en) | Apparatus, system and method for string disambiguation and entity ranking | |
KR100954842B1 (ko) | 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체 | |
JP2017220204A (ja) | 検索クエリに応答してホワイトリストとブラックリストを使用し画像とコンテンツをマッチングする方法及びシステム | |
KR102076548B1 (ko) | 형태소 분석을 활용하여 문서를 관리하는 장치 및 이의 동작 방법 | |
TWI615727B (zh) | 資訊處理系統及方法與資訊處理程式 | |
JP2014102827A (ja) | 検索システム及びその検索方法 | |
CN107665442B (zh) | 获取目标用户的方法及装置 | |
US20030195882A1 (en) | Homepage searching method using similarity recalculation based on URL substring relationship | |
Malhotra et al. | Quantitative evaluation of web metrics for automatic genre classification of web pages | |
JP5179564B2 (ja) | クエリセグメント位置決定装置 | |
Shah et al. | An automatic text summarization on Naive Bayes classifier using latent semantic analysis | |
JP6285341B2 (ja) | スニペット生成装置、スニペット生成方法及びスニペット生成プログラム | |
Moumtzidou et al. | Discovery of environmental nodes in the web |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20161208 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171012 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20171017 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20171215 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180130 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180201 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6285341 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |