JP5373710B2 - インデックス更新装置及びその方法 - Google Patents
インデックス更新装置及びその方法 Download PDFInfo
- Publication number
- JP5373710B2 JP5373710B2 JP2010149867A JP2010149867A JP5373710B2 JP 5373710 B2 JP5373710 B2 JP 5373710B2 JP 2010149867 A JP2010149867 A JP 2010149867A JP 2010149867 A JP2010149867 A JP 2010149867A JP 5373710 B2 JP5373710 B2 JP 5373710B2
- Authority
- JP
- Japan
- Prior art keywords
- index
- web page
- url
- text information
- update
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000000605 extraction Methods 0.000 claims abstract description 64
- 239000013589 supplement Substances 0.000 claims abstract description 13
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 26
- 238000010586 diagram Methods 0.000 description 19
- 230000000694 effects Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
一般的に、リンク先ページの説明は、リンク先へのアンカーテキストとして付されることにより行われるか、リンク先へのアンカータグから所定の範囲内に配置されることが多い。よって、(4)のインデックス更新装置は、リンク元ページにおいて更新対象Webページへのアンカータグから所定の範囲内に含まれるテキスト情報を抽出するので、適切に補充用テキスト情報を抽出することができる。
図1は、本実施形態に係るインデックス更新装置1の機能概要を示す図である。インデックス更新装置1は、検索エンジンのインデックスを更新するサーバである。
図10は、更新対象Webページとリンク先URLに対応するWebページとを示す図である。図10(1)は、端末でニュースページを閲覧した場合に、端末のブラウザ50に対して、更新対象Webページとしてのニュースページに、拡大写真50Aが表示されている例を示す図である。図10(2)は、ブラウザ50に対して、更新対象Webページのリンク先URLに対応するWebページとして、拡大写真50Aに対応するニュース記事が表示されている例を示す図である。
図5は、本実施形態に係るインデックス更新装置1の制御部10における処理を示すフローチャートである。ここでは、更新対象Webページそれぞれについて、1つずつ順番に処理が行われるものとする。
図14は、本実施形態に係るインデックスDB22が更新される別の状況を示す図である。図14では、図13と同様に説明を簡易にするため、3つのURL(「http://#1」、「http://#2」、URL「http://#3」)について扱うこととする。
図15は、本実施形態に係るインデックスDB22が更新される別の状況を示す図である。図15では、図13と同様に説明を簡易にするため、3つのURL(「http://#1」、「http://#2」、URL「http://#3」)について扱うこととする。
図16は、本実施形態に係るインデックスDB22が更新される別の状況を示す図である。図16では、図13と同様に説明を簡易にするため、3つのURL(「http://#1」、「http://#2」、URL「http://#3」)について扱うこととする。
また、前述の実施の形態は以下のように把握してもよい。
(A)検索エンジンのインデックスを更新するインデックス更新装置であって、WebページのURLと当該Webページのコンテンツ情報とを関連付けて記憶するコンテンツ情報記憶手段と、前記WebページのURLと当該Webページに含まれるリンク先のWebページのURLとを関連付けて記憶するリンク情報記憶手段と、前記WebページのURLと当該Webページのインデックスとしてのテキスト情報とを関連付けて記憶するインデックス情報記憶手段と、前記リンク情報記憶手段に基づいて、前記インデックスの更新の対象となる更新対象Webページのリンク先のWebページのURLであるリンク先URL又は前記更新対象Webページをリンク先に含むWebページのURLであるリンク元URLを抽出するURL抽出手段と、当該抽出したリンク先又はリンク元のURLに基づいて、前記インデックス情報記憶手段を参照し、既に前記インデックスとして記憶している当該リンク先又は当該リンク元のテキスト情報を補充用テキスト情報として抽出する補充用テキスト情報抽出手段と、前記コンテンツ情報記憶手段に記憶されている前記コンテンツ情報に基づいて、前記更新対象WebページのURLに対応するインデックス
を生成し、前記インデックス情報記憶手段を更新する第1インデックス更新手段と、前記補充用テキスト情報抽出手段により抽出された前記補充用テキスト情報に基づいて、前記更新対象WebページのURLに対応するインデックスを生成し、当該生成したインデックスを補充して前記インデックス情報記憶手段を更新する第2インデックス更新手段と、を備えるインデックス更新装置。
(B)前記Webページの前記コンテンツ情報を受け付け、当該コンテンツ情報をコンテンツ情報記憶手段に記憶させる受付手段と、前記コンテンツ情報記憶手段に前記コンテンツ情報が記憶されたことに応じて、前記URL抽出手段、補充用テキスト情報抽出手段、第1インデックス更新手段、第2インデックス更新手段を実行させる実行制御手段を更に備える(A)に記載のインデックス更新装置。
(B)のインデックス更新装置は、実行制御手段により、コンテンツ情報記憶手段にコンテンツ情報が記憶されたことに応じて、URL抽出手段、補充用テキスト情報抽出手段、第1インデックス更新手段、第2インデックス更新手段を実行させる。よって、(B)のインデックス更新装置は、コンテンツ情報記憶手段に、インデックスを生成する元となるコンテンツ情報が記憶される毎にインデックスを更新するので、迅速にインデックスの更新を行うことができる。
10 制御部
11 URL抽出部
12 補充用テキスト情報抽出部
13 第1インデックス更新部
14 第2インデックス更新部
15 実行制御部
16 クロール部
20 記憶部
21 リンクDB
22 インデックスDB
23 コンテンツDB
Claims (5)
- 検索エンジンのインデックスを更新するインデックス更新装置であって、
WebページのURLと当該Webページのコンテンツ情報とを関連付けて記憶するコンテンツ情報記憶手段と、
前記WebページのURLと当該Webページに含まれるリンク先のWebページのURLとを関連付けて記憶するリンク情報記憶手段と、
前記WebページのURLと当該Webページのインデックスとしてのテキスト情報とを関連付けて記憶するインデックス情報記憶手段と、
前記リンク情報記憶手段に基づいて、前記インデックスの情報量が所定値よりも少ない更新の対象となる更新対象Webページのリンク先のWebページのURLであるリンク先URLを抽出するURL抽出手段と、
前記更新対象Webページに含まれるテキスト情報が少ないときは、当該抽出したリンク先のURLに基づいて、前記インデックス情報記憶手段を参照し、既に前記インデックスとして記憶している当該リンク先のテキスト情報を補充用テキスト情報として抽出する補充用テキスト情報抽出手段と、
前記コンテンツ情報記憶手段に記憶されている前記コンテンツ情報に基づいて、前記更新対象WebページのURLに対応するインデックスを生成し、前記インデックス情報記憶手段を更新する第1インデックス更新手段と、
前記補充用テキスト情報抽出手段により抽出された前記補充用テキスト情報に基づいて、前記更新対象WebページのURLに対応するインデックスを生成し、当該生成したインデックスを補充して前記インデックス情報記憶手段を更新する第2インデックス更新手段と、を備えるインデックス更新装置。 - 前記URL抽出手段、補充用テキスト情報抽出手段、第1インデックス更新手段、第2インデックス更新手段を、前記URL抽出手段、補充用テキスト情報抽出手段、第1インデックス更新手段、第2インデックス更新手段の順に前記補充するインデックスがなくなるまで繰り返し実行させる実行制御手段を更に備える請求項1に記載のインデックス更新装置。
- 前記第2インデックス更新手段は、前記更新対象Webページのテキスト情報が少ないときに、前記補充用テキスト情報抽出手段が抽出した前記補充用テキスト情報に基づいて、前記更新対象WebページのURLに対応するインデックスを生成し、当該生成したインデックスを前記インデックス情報記憶手段に追加することを特徴とする請求項1に記載のインデックス更新装置。
- 前記補充用テキスト情報抽出手段は、前記インデックス情報記憶手段及び前記コンテンツ情報記憶手段に基づいて、前記リンク元URLに対応するテキスト情報のうち、前記更新対象Webページへのアンカータグから所定の範囲内に含まれるテキスト情報のみを抽出する請求項1から3のいずれかに記載のインデックス更新装置。
- 検索エンジンのインデックスを更新するインデックス更新装置が実行する方法であって、
前記インデックス更新装置は、
WebページのURLと当該Webページのコンテンツ情報とを関連付けて記憶するコンテンツ情報記憶手段と、
前記WebページのURLと当該Webページに含まれるリンク先のWebページのURLとを関連付けて記憶するリンク情報記憶手段と、
前記WebページのURLと当該Webページのインデックスとしてのテキスト情報とを関連付けて記憶するインデックス情報記憶手段と、を備え、
前記リンク情報記憶手段に基づいて、前記インデックスの情報量が所定値よりも少ない更新の対象となる更新対象Webページのリンク先のWebページのURLであるリンク先URLを抽出するURL抽出ステップと、
前記更新対象Webページに含まれるテキスト情報量が少ないときは、当該抽出したリンク先のURLに基づいて、前記インデックス情報記憶手段を参照し、既に前記インデックスとして記憶している当該リンク先のテキスト情報を補充用テキスト情報として抽出する補充用テキスト情報抽出ステップと、
前記コンテンツ情報記憶手段に記憶されている前記コンテンツ情報に基づいて、前記更新対象WebページのURLに対応するインデックスを生成し、前記インデックス情報記憶手段を更新する第1インデックス更新ステップと、
前記補充用テキスト情報抽出ステップにおいて抽出された前記補充用テキスト情報に基づいて、前記更新対象WebページのURLに対応するインデックスを生成し、当該生成したインデックスを補充して前記インデックス情報記憶手段を更新する第2インデックス更新ステップと、を備える方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010149867A JP5373710B2 (ja) | 2010-06-30 | 2010-06-30 | インデックス更新装置及びその方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010149867A JP5373710B2 (ja) | 2010-06-30 | 2010-06-30 | インデックス更新装置及びその方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012014396A JP2012014396A (ja) | 2012-01-19 |
JP5373710B2 true JP5373710B2 (ja) | 2013-12-18 |
Family
ID=45600758
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010149867A Active JP5373710B2 (ja) | 2010-06-30 | 2010-06-30 | インデックス更新装置及びその方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5373710B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5671891B2 (ja) * | 2010-09-01 | 2015-02-18 | 日本電気株式会社 | タグ付け装置、タグ付け方法およびプログラム |
EP3603963B1 (en) | 2013-03-14 | 2021-06-30 | Smart Planet Technologies, Inc. | Repulpable and recyclable composite packaging articles and related methods |
US20140274632A1 (en) | 2013-03-14 | 2014-09-18 | Smart Planet Technologies, Inc. | Composite structures for packaging articles and related methods |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004178070A (ja) * | 2002-11-25 | 2004-06-24 | Nippon Telegr & Teleph Corp <Ntt> | 情報検索方法及び情報検索装置並びにプログラム |
JP4633162B2 (ja) * | 2008-12-01 | 2011-02-16 | 株式会社エヌ・ティ・ティ・ドコモ | インデックス生成システム、情報検索システム、及びインデックス生成方法 |
-
2010
- 2010-06-30 JP JP2010149867A patent/JP5373710B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012014396A (ja) | 2012-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9355077B2 (en) | Content management system employing a hybrid web application framework | |
EP2546766B1 (en) | Dynamic search box for web browser | |
US10078709B2 (en) | Managing a display of results of a keyword search on a web page by modifying attributes of a DOM tree structure | |
US9971747B2 (en) | Systems and methods for alert management | |
KR102254117B1 (ko) | 네이티브 어플리케이션의 어플리케이션 페이지 인덱싱 | |
Zakas | High performance JavaScript: build faster web application interfaces | |
US8453051B1 (en) | Dynamic display dependent markup language interface | |
CN105094804A (zh) | 在页面中添加动画的方法和装置 | |
US20140006913A1 (en) | Visual template extraction | |
JP2014502385A (ja) | フォントスタイル要素の抽出及び管理 | |
WO2011098457A1 (en) | Method and system for organizing information with a sharable user interface | |
JP2008542919A (ja) | 表示におけるエレメントz−順番の精密なグレイン制御 | |
JP4771915B2 (ja) | Htmlテキストを変換する装置、方法、およびプログラム | |
CN105745644A (zh) | 表示在网页浏览器中的网页的状态表示的建立 | |
WO2014011711A2 (en) | Extensible content focus mode | |
JP5373710B2 (ja) | インデックス更新装置及びその方法 | |
JP4935396B2 (ja) | Webコンテンツ提供装置、Webコンテンツ提供方法およびプログラム | |
CN107077484B (zh) | 生成应用的网络浏览器视图 | |
US8413062B1 (en) | Method and system for accessing interface design elements via a wireframe mock-up | |
US20140282477A1 (en) | Automatic updating of data in application programs | |
JP5228529B2 (ja) | データ検索プログラム、データ検索装置およびデータ検索方法 | |
JP2000215138A (ja) | 情報探索装置、及びプログラムが記憶された記憶媒体 | |
EP1349083A1 (en) | Rule-based data extraction from web pages | |
JP4962973B2 (ja) | 検索サーバ、方法及びプログラム | |
Zhao | Build a live news application with Next. js 13 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20120312 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120717 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20120807 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120913 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20130402 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130619 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20130626 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130827 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130919 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5373710 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |