JP2009075904A - 検索可能化プログラム - Google Patents
検索可能化プログラム Download PDFInfo
- Publication number
- JP2009075904A JP2009075904A JP2007244721A JP2007244721A JP2009075904A JP 2009075904 A JP2009075904 A JP 2009075904A JP 2007244721 A JP2007244721 A JP 2007244721A JP 2007244721 A JP2007244721 A JP 2007244721A JP 2009075904 A JP2009075904 A JP 2009075904A
- Authority
- JP
- Japan
- Prior art keywords
- web page
- text
- search
- crawler
- computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】ウェブページ用サーバ13において、テキストが含まれてないウェブページを構成するコンテンツに対し、テキスト抽出処理部36でテキスト抽出処理を施す。ウェブページを構成するコンテンツは分解され、コンテンツに埋め込まれていたテキストが抽出される。この分解により得られたテキストなどに対し、WP作成処理部37でウェブページ作成処理を施し、テキストを含めた形のウェブページを作成する。
【選択図】図10
Description
13 ウェブページ用サーバ(ウェブページ側のコンピュータ)
14 検索サイト用サーバ(検索サイト)
36 テキスト抽出処理部
37 ウェブページ作成処理部(WP作成処理部)
41,51,72 ウェブページ
44,52 アドビフラッシュ(Adobe Flash)
61 テキスト
71 アドレス
88 クローラ
89 ウェブページデータベース(ウェブページDB)
Claims (8)
- インターネット上に存在する複数のウェブページを巡回して前記ウェブページを構成するコンテンツをテキストとともに収集し検索サイトのデータベースを構築するクローラに巡回される前記ウェブページ側のコンピュータに実行させるプログラムであって、
前記クローラが検知することができない形式でテキストが埋め込まれた前記コンテンツを分解して前記テキストを抽出する抽出ステップを前記コンピュータに実行させることを特徴とする検索可能化プログラム。 - 前記ウェブページに、前記クローラが検知することができる形式のテキストが含まれてない場合に、前記抽出ステップを前記コンピュータに実行させることを特徴とする請求項1記載の検索可能化プログラム。
- 前記クローラに巡回されたことを契機に前記抽出ステップを前記コンピュータに実行させることを特徴とする請求項1又は2記載の検索可能化プログラム。
- 前記クローラに巡回される前に予め前記抽出ステップを前記コンピュータに実行させることを特徴とする請求項1又は2記載の検索可能化プログラム。
- 前記抽出ステップで抽出したテキストを含めたウェブページを作成する作成ステップを前記コンピュータに実行させることを特徴とする請求項3又は4記載の検索可能化プログラム。
- 前記作成ステップで作成するウェブページは、前記抽出ステップで分解した元のコンテンツのウェブページとのリンクが張られることを特徴とする請求項5記載の検索可能化プログラム。
- 前記作成ステップで作成したウェブページを、前記インターネット上に公開する公開ステップを前記コンピュータに実行させることを特徴とする請求項5又は6記載の検索可能化プログラム。
- 前記抽出ステップで分解するコンテンツは、アドビ(登録商標)フラッシュ(登録商標)であることを特徴とする請求項1ないし7いずれか記載の検索可能化プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007244721A JP2009075904A (ja) | 2007-09-21 | 2007-09-21 | 検索可能化プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007244721A JP2009075904A (ja) | 2007-09-21 | 2007-09-21 | 検索可能化プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009075904A true JP2009075904A (ja) | 2009-04-09 |
Family
ID=40610800
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007244721A Pending JP2009075904A (ja) | 2007-09-21 | 2007-09-21 | 検索可能化プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009075904A (ja) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000293425A (ja) * | 1999-04-01 | 2000-10-20 | Nec Commun Syst Ltd | インターネットWeb検索システム |
JP2002123528A (ja) * | 2000-08-24 | 2002-04-26 | Internatl Business Mach Corp <Ibm> | データ検索の方法、システム、およびプログラム |
JP2003296350A (ja) * | 2002-04-05 | 2003-10-17 | Fujitsu Ltd | 情報提供システム |
JP2004318746A (ja) * | 2003-04-21 | 2004-11-11 | Toward Inc | 情報収集システム、情報収集方法、及び情報収集プログラム |
JP2006244102A (ja) * | 2005-03-03 | 2006-09-14 | Univ Of Tsukuba | 質問応答システム |
-
2007
- 2007-09-21 JP JP2007244721A patent/JP2009075904A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000293425A (ja) * | 1999-04-01 | 2000-10-20 | Nec Commun Syst Ltd | インターネットWeb検索システム |
JP2002123528A (ja) * | 2000-08-24 | 2002-04-26 | Internatl Business Mach Corp <Ibm> | データ検索の方法、システム、およびプログラム |
JP2003296350A (ja) * | 2002-04-05 | 2003-10-17 | Fujitsu Ltd | 情報提供システム |
JP2004318746A (ja) * | 2003-04-21 | 2004-11-11 | Toward Inc | 情報収集システム、情報収集方法、及び情報収集プログラム |
JP2006244102A (ja) * | 2005-03-03 | 2006-09-14 | Univ Of Tsukuba | 質問応答システム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5821678B2 (ja) | ウェブ・アプリケーションのブラウザに依存しない自動互換性チェックのためのウェブ・サービス | |
JP5340751B2 (ja) | 文書処理装置および文書処理方法 | |
US8046323B2 (en) | Context based bookmark | |
CN107145496A (zh) | 基于关键词将图像与内容项目匹配的方法 | |
JP2000029906A (ja) | 文書情報管理システム | |
JP4796538B2 (ja) | コメントデータを関連付ける方法 | |
KR100359233B1 (ko) | 웹 정보 추출 방법 및 시스템 | |
CN105745644A (zh) | 表示在网页浏览器中的网页的状态表示的建立 | |
US20110131211A1 (en) | Methods and systems for visualizing topic location in a document redundancy graph | |
JP5327784B2 (ja) | 計算機システム、情報収集支援装置及び情報収集支援方法 | |
Rodrigo et al. | ScienceSearch: Enabling search through automatic metadata generation | |
JP2011044116A (ja) | 閲覧制御装置、閲覧制御方法および閲覧制御プログラム | |
US20140122693A1 (en) | Web Navigation Tracing | |
JP5922640B2 (ja) | 閲覧制御装置、閲覧制御方法および閲覧制御プログラム | |
JP2010108363A (ja) | クリックログを利用して専門検索用クローラのシード選択を行う検索処理装置、検索処理方法及びプログラム | |
JP6727097B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US11250084B2 (en) | Method and system for generating content from search results rendered by a search engine | |
JP2009075904A (ja) | 検索可能化プログラム | |
JP2010257406A (ja) | 適正単語取得装置、機械学習装置及び方法 | |
Dharmarajan et al. | Discovering User Pattern Analysis from Web Log Data using Weblog Expert | |
JP5286007B2 (ja) | 文書検索装置、文書検索方法、および文書検索プログラム | |
JP5380874B2 (ja) | 情報検索方法、プログラム及び装置 | |
JP2008234559A (ja) | ドキュメント絞り込み検索装置、方法及びプログラム | |
US9420052B2 (en) | Web navigation using web navigation pattern histories | |
Khabsa et al. | A Framework for Bridging the Gap Between Open Source Search Tools. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100218 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120308 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120328 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120525 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120711 |