JP6500908B2 - データ取得プログラム、データ取得方法及びデータ取得装置 - Google Patents
データ取得プログラム、データ取得方法及びデータ取得装置 Download PDFInfo
- Publication number
- JP6500908B2 JP6500908B2 JP2016558843A JP2016558843A JP6500908B2 JP 6500908 B2 JP6500908 B2 JP 6500908B2 JP 2016558843 A JP2016558843 A JP 2016558843A JP 2016558843 A JP2016558843 A JP 2016558843A JP 6500908 B2 JP6500908 B2 JP 6500908B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- document
- tag
- unit
- target portion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 32
- 238000000605 extraction Methods 0.000 claims description 121
- 239000000284 extract Substances 0.000 claims description 11
- 230000009193 crawling Effects 0.000 description 17
- 238000013500 data storage Methods 0.000 description 17
- 238000004891 communication Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 10
- 230000014509 gene expression Effects 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 7
- 230000010365 information processing Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 239000003086 colorant Substances 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Description
101 入力部
102 出力部
110 通信部
120 記憶部
121 対象記憶部
122 項目記憶部
123 ページ記憶部
124 抽出データ記憶部
130 制御部
131 登録部
132 クロール部
133 抽出部
134 出力制御部
N ネットワーク
Claims (7)
- 特定のURLに対応付けられ、タグの構造情報を含む文書における抽出対象部分の前記文書に含まれるタグの階層構造上の位置を特定し、該階層構造上の位置を登録することを許容し、
定期的又は不定期に、前記特定のURLに対応付けられた前記文書にアクセスして、登録された前記タグの階層構造上の位置に対応するデータを抜き出して、出力し、
前記文書についての前記抽出対象部分の位置が複数登録され、未知の文書にアクセスした場合に、前記未知の文書について、取得済みの複数の前記位置に対応するデータと一致するデータの数又は率に応じた出力を行う、
処理をコンピュータに実行させることを特徴とするデータ取得プログラム。 - 前記抽出対象部分の位置は更に、タグの名称又はタグの文書内における順と、前記タグの階層構造との組み合わせを用いて特定されることを特徴とする請求項1に記載のデータ取得プログラム。
- 過去に抜き出した登録された前記タグの階層構造上の位置に対応するデータと、今回抜き出した登録された前記タグの階層構造上の位置に対応するデータとが異なる場合に、データが変化したことを示す情報を出力することを特徴とする請求項1に記載のデータ取得プログラム。
- 前記文書についての前記抽出対象部分の位置が複数登録された場合に、複数の前記位置に対応するデータの内、過去のデータと一致するデータの数又は率に応じた出力を行うことを特徴とする請求項1に記載のデータ取得プログラム。
- HTML形式で記述された前記文書又は該文書のソースを表示し、
表示された該文書又は該文書のソースに含まれる抽出対象部分の選択を受け付け、
受け付けた前記抽出対象部分に対応するタグの階層を特定し、
特定した該階層を前記抽出対象部分の位置を特定する情報として登録することを特徴とする請求項1に記載のデータ取得プログラム。 - 特定のURLに対応付けられ、タグの構造情報を含む文書における抽出対象部分の選択を受け付け、受け付けた前記抽出対象部分に対応するタグの階層構造上の位置を特定し、
特定した前記タグの階層構造上の位置を記憶部に登録し、
定期的又は不定期に、前記特定のURLに対応付けられた前記文書にアクセスして、前記記憶部に登録された前記タグの階層構造上の位置に対応するデータを抜き出して、出力し、
前記文書についての前記タグの階層構造上の位置が複数登録され、未知の文書にアクセスした場合に、前記未知の文書について、取得済みの複数の前記位置に対応するデータと一致するデータの数又は率に応じた出力を行う、
処理をコンピュータが実行することを特徴とするデータ取得方法。 - 特定のURLに対応付けられ、タグの構造情報を含む文書における抽出対象部分の前記文書に含まれるタグの階層構造上の位置を特定し、該階層構造上の位置を登録することを許容する登録部と、
定期的又は不定期に、前記特定のURLに対応付けられた前記文書にアクセスして、登録された前記タグの階層構造上の位置に対応するデータを抜き出して、出力する第1出力制御部と、
前記文書についての前記抽出対象部分の位置が複数登録され、未知の文書にアクセスした場合に、前記未知の文書について、取得済みの複数の前記位置に対応するデータと一致するデータの数又は率に応じた出力を行う第2出力制御部と、
を有することを特徴とするデータ取得装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2014/080268 WO2016075829A1 (ja) | 2014-11-14 | 2014-11-14 | データ取得プログラム、データ取得方法及びデータ取得装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2016075829A1 JPWO2016075829A1 (ja) | 2017-08-17 |
JP6500908B2 true JP6500908B2 (ja) | 2019-04-17 |
Family
ID=55953942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016558843A Active JP6500908B2 (ja) | 2014-11-14 | 2014-11-14 | データ取得プログラム、データ取得方法及びデータ取得装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10769216B2 (ja) |
EP (1) | EP3220285A4 (ja) |
JP (1) | JP6500908B2 (ja) |
SG (1) | SG11201703830XA (ja) |
WO (1) | WO2016075829A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10922366B2 (en) * | 2018-03-27 | 2021-02-16 | International Business Machines Corporation | Self-adaptive web crawling and text extraction |
JP7018202B2 (ja) * | 2018-11-27 | 2022-02-10 | 株式会社クリエイト | 掲載情報検索システム |
CN110909123B (zh) * | 2019-10-23 | 2023-08-25 | 深圳价值在线信息科技股份有限公司 | 一种数据提取方法、装置、终端设备及存储介质 |
TWI757733B (zh) * | 2020-05-05 | 2022-03-11 | 華碩電腦股份有限公司 | 網路資料收集方法 |
US20230229850A1 (en) * | 2022-01-14 | 2023-07-20 | Microsoft Technology Licensing, Llc | Smart tabular paste from a clipboard buffer |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3715444B2 (ja) * | 1998-06-30 | 2005-11-09 | 株式会社東芝 | 構造化文書保存方法及び構造化文書保存装置 |
JP3946934B2 (ja) | 1999-08-05 | 2007-07-18 | 株式会社東芝 | ウェブページ部品統合処理装置、ウェブページ部品統合処理方法及びクライアント装置 |
US6754648B1 (en) * | 1999-09-30 | 2004-06-22 | Software Ag | Method for storing and managing data |
JP2001202283A (ja) | 1999-11-09 | 2001-07-27 | Fujitsu Ltd | コンテンツ更新状況監視システム |
JP2003248613A (ja) * | 2001-11-20 | 2003-09-05 | Sharp Corp | 情報配信システムおよびそれに用いられる配信情報生成装置 |
JP2006318138A (ja) * | 2005-05-11 | 2006-11-24 | Nec Personal Products Co Ltd | Webシステム、Webシステム用サーバコンピュータおよびコンピュータプログラム |
US7627571B2 (en) * | 2006-03-31 | 2009-12-01 | Microsoft Corporation | Extraction of anchor explanatory text by mining repeated patterns |
JP2011039766A (ja) * | 2009-08-11 | 2011-02-24 | Ricoh Co Ltd | 情報配信サーバ、情報配信システム、情報配信プログラム、及び情報配信方法 |
JP2011100403A (ja) * | 2009-11-09 | 2011-05-19 | Sony Corp | 情報処理装置、情報抽出方法、プログラム及び情報処理システム |
JP5443322B2 (ja) * | 2010-11-11 | 2014-03-19 | 日本電信電話株式会社 | 情報抽出装置、情報抽出方法および情報抽出プログラム |
CN102890692A (zh) | 2011-07-22 | 2013-01-23 | 阿里巴巴集团控股有限公司 | 一种网页信息抽取方法及抽取系统 |
-
2014
- 2014-11-14 JP JP2016558843A patent/JP6500908B2/ja active Active
- 2014-11-14 EP EP14905762.2A patent/EP3220285A4/en not_active Withdrawn
- 2014-11-14 WO PCT/JP2014/080268 patent/WO2016075829A1/ja active Application Filing
- 2014-11-14 SG SG11201703830XA patent/SG11201703830XA/en unknown
-
2017
- 2017-05-08 US US15/589,150 patent/US10769216B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US10769216B2 (en) | 2020-09-08 |
EP3220285A4 (en) | 2017-11-08 |
JPWO2016075829A1 (ja) | 2017-08-17 |
US20170300574A1 (en) | 2017-10-19 |
EP3220285A1 (en) | 2017-09-20 |
WO2016075829A1 (ja) | 2016-05-19 |
SG11201703830XA (en) | 2017-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6500908B2 (ja) | データ取得プログラム、データ取得方法及びデータ取得装置 | |
KR20170073693A (ko) | 유사 그룹 요소 추출 | |
CN111859076A (zh) | 数据爬取方法、装置、计算机设备及计算机可读存储介质 | |
JP2007102583A (ja) | 特許情報管理システム、特許情報管理方法およびプログラム | |
JP6520955B2 (ja) | データ検証プログラム、データ検証方法及びデータ検証装置 | |
JP6601412B2 (ja) | 情報取得プログラム、情報取得方法および情報取得装置 | |
JP2008123425A (ja) | ウェブ文書データ提供装置、方法、およびシステム | |
JP2008071116A (ja) | 情報配信システム、情報配信装置、情報配信方法および情報配信用プログラム | |
EP3370170A1 (en) | Feature term classification method, information processing apparatus, and feature term classification program | |
JP2018152015A (ja) | 記憶制御装置、記憶制御プログラムおよび記憶制御方法 | |
JP6915322B2 (ja) | ウェブサイト比較処理プログラム、ウェブサイト比較方法およびウェブサイトを比較する装置 | |
JP6493413B2 (ja) | データ取得プログラム、データ取得方法及びデータ取得装置 | |
JP2006209598A (ja) | サイト情報収集システム | |
JP6485462B2 (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
JP7266977B2 (ja) | 応募者の情報を収集するための装置、方法及びそのためのプログラム | |
JP2010250567A (ja) | 環境情報集計分析システム | |
JP2009110506A (ja) | 情報処理装置及び情報処理プログラム | |
Hamlett et al. | Various Ways of Collecting EZproxy Usage Statistics | |
JP2010211686A (ja) | 情報提供装置、情報提供方法、およびプログラム | |
JP2018180979A (ja) | ログ構造可視化装置、ログ構造可視化方法、およびプログラム | |
JP2007086842A (ja) | 入力フォーム提示システムおよび方法 | |
JP2009093391A (ja) | Webサーバ連携方法、Webサーバ連携プログラム、および、Webサーバ連携システム | |
WO2013038508A1 (ja) | 計算機、計算機システム及びデータベースの構築支援方法 | |
JP2009139987A (ja) | 検索システム、検索サーバ、検索プログラム、および、検索方法 | |
JP2016009349A (ja) | 文書管理装置、文書管理方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170517 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170517 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180731 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180919 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190304 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6500908 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |