JP6601412B2 - 情報取得プログラム、情報取得方法および情報取得装置 - Google Patents
情報取得プログラム、情報取得方法および情報取得装置 Download PDFInfo
- Publication number
- JP6601412B2 JP6601412B2 JP2016558844A JP2016558844A JP6601412B2 JP 6601412 B2 JP6601412 B2 JP 6601412B2 JP 2016558844 A JP2016558844 A JP 2016558844A JP 2016558844 A JP2016558844 A JP 2016558844A JP 6601412 B2 JP6601412 B2 JP 6601412B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- item
- information
- storage unit
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 63
- 238000003860 storage Methods 0.000 claims description 141
- 238000000605 extraction Methods 0.000 description 128
- 238000013500 data storage Methods 0.000 description 41
- 230000000295 complement effect Effects 0.000 description 31
- 238000004891 communication Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 14
- 239000013589 supplement Substances 0.000 description 12
- 230000006870 function Effects 0.000 description 10
- 239000000284 extract Substances 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 7
- 230000004044 response Effects 0.000 description 5
- 230000010365 information processing Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000009469 supplementation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004040 coloring Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
- G06F16/94—Hypermedia
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
- G06F16/164—File meta data generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/106—Display of layout of documents; Previewing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/114—Pagination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
- G06F40/117—Tagging; Marking up; Designating a block; Setting of attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/134—Hyperlinking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/137—Hierarchical processing, e.g. outlines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
Description
101 入力部
102 出力部
110 通信部
120 記憶部
121 対象記憶部
122 項目記憶部
123 ページ記憶部
124 抽出データ記憶部
130 制御部
131 登録部
132 クロール部
133 抽出部
134 補完部
135 出力制御部
N ネットワーク
Claims (10)
- あるサイトの文書中における特定のデータの位置を特定する情報と、該文書中における該特定のデータとの間で所定の関連を有する他のデータの位置を特定する情報とを記憶する第1記憶部を参照して、前記あるサイトの文書中における特定のデータの位置を特定する情報を用いて、前記文書から前記特定のデータを取得し、
特定のデータの項目と他のデータの項目との所定の関連を、特定のデータの項目ごとに対応付けて記憶する第2記憶部を参照して、取得した前記特定のデータの項目に関連する他のデータの項目を特定し、
前記第1記憶部を参照して、特定した前記他のデータの項目に対応する前記他のデータの位置を特定する情報を用いて、前記文書から前記他のデータを取得し、
前記第2記憶部を参照して、取得した前記他のデータの項目を、特定のデータの項目とした場合における、該特定のデータの項目と所定の関連を有する他のデータの項目を関連データの項目として特定し、
前記第1記憶部を参照して、特定した前記関連データの項目に対応する特定のデータと所定の関連を有する前記他のデータの位置を特定する情報を用いて、取得した前記他のデータと前記所定の関連を有する前記関連データを取得する、
処理をコンピュータに実行させることを特徴とする情報取得プログラム。 - 前記関連データを取得する処理は、取得した前記他のデータを、前記関連データとの間における前記所定の関連に応じた検索エンジンに提供することで前記関連データを取得することを特徴とする請求項1に記載の情報取得プログラム。
- 前記他のデータの項目を特定する処理は、前記特定のデータを取得する処理において、前記特定のデータが取得出来なかった場合に、取得を試みた前記特定のデータの項目に関連する他のデータの項目を特定する、
ことを特徴とする請求項1に記載の情報取得プログラム。 - 前記文書は、マークアップ言語を用いた文書であることを特徴とする請求項1に記載の情報取得プログラム。
- 前記所定の関連は、住所情報と位置座標情報、または、電話番号と施設名称情報であることを特徴とする請求項1に記載の情報取得プログラム。
- あるサイトの文書中における特定のデータの位置を特定する情報と、該文書中における該特定のデータとの間で第一の関連を有する第一のデータの位置を特定する情報と、該文書中における該特定のデータとの間で第二の関連を有する第二のデータの位置を特定する情報とを記憶する第1記憶部を参照して、前記あるサイトの文書中における特定のデータの位置を特定する情報を用いて、前記文書から前記特定のデータが取得出来なかった場合に、特定のデータの項目と第一のデータの項目との第一の関連、および、特定のデータの項目と第二のデータの項目との第二の関連を、特定のデータの項目ごとに対応付けて記憶する第2記憶部を参照して、取得を試みた前記特定のデータの項目に関連する第一のデータの項目を特定し、
前記第1記憶部を参照して、特定した前記第一のデータの項目に対応する前記第一のデータの位置を特定する情報を用いて、前記文書から前記第一のデータを取得し、
前記第2記憶部を参照して、取得した前記第一のデータの項目を、特定のデータの項目とした場合における、該特定のデータの項目と第一の関連を有する第一のデータの項目を第三のデータの項目として特定し、
前記第1記憶部を参照して、特定した前記第三のデータの項目に対応する前記第一のデータの位置を特定する情報を用いて、取得した前記第一のデータと前記第一の関連を有する前記第三のデータを取得し、
前記第三のデータが取得出来なかった場合に、前記第2記憶部を参照して、取得を試みた前記特定のデータの項目に関連する第二のデータの項目を特定し、
前記第1記憶部を参照して、特定した前記第二のデータの項目に対応する前記第二のデータの位置を特定する情報を用いて、前記文書から前記第二のデータを取得し、
前記第2記憶部を参照して、取得した前記第二のデータの項目を、特定のデータの項目とした場合における、該特定のデータの項目と第二の関連を有する第二のデータの項目を関連データの項目として特定し、
前記第1記憶部を参照して、特定した前記関連データの項目に対応する特定のデータと第二の関連を有する前記第二のデータの位置を特定する情報を用いて、取得した前記第二のデータと前記第二の関連を有する前記関連データを取得する、
処理をコンピュータに実行させることを特徴とする情報取得プログラム。 - あるサイトの文書中における特定のデータの位置を特定する情報と、該文書中における該特定のデータとの間で所定の関連を有する他のデータの位置を特定する情報とを記憶する第1記憶部を参照して、前記あるサイトの文書中における特定のデータの位置を特定する情報を用いて、前記あるサイトのサーバから取得した前記文書から前記特定のデータを取得し、
特定のデータの項目と他のデータの項目との所定の関連を、特定のデータの項目ごとに対応付けて記憶する第2記憶部を参照して、取得した前記特定のデータの項目に関連する他のデータの項目を特定し、
前記第1記憶部を参照して、特定した前記他のデータの項目に対応する前記他のデータの位置を特定する情報用いて、前記あるサイトのサーバから取得した前記文書から前記他のデータを取得し、
前記第2記憶部を参照して、取得した前記他のデータの項目を、特定のデータの項目とした場合における、該特定のデータの項目と所定の関連を有する他のデータの項目を関連データの項目として特定し、
前記第1記憶部を参照して、特定した前記関連データの項目に対応する特定のデータと所定の関連を有する前記他のデータの位置を特定する情報を用いて、取得した前記他のデータと前記所定の関連を有する前記関連データを前記文書から取得する、
処理をコンピュータが実行することを特徴とする情報取得方法。 - あるサイトの文書中における特定のデータの位置を特定する情報と、該文書中における該特定のデータとの間で第一の関連を有する第一のデータの位置を特定する情報と、該文書中における該特定のデータとの間で第二の関連を有する第二のデータの位置を特定する情報とを記憶する第1記憶部を参照して、前記あるサイトの文書中における特定のデータの位置を特定する情報を用いて、前記あるサイトのサーバから取得した前記文書から前記特定のデータが取得出来なかった場合に、特定のデータの項目と第一のデータの項目との第一の関連、および、特定のデータの項目と第二のデータの項目との第二の関連を、特定のデータの項目ごとに対応付けて記憶する第2記憶部を参照して、取得を試みた前記特定のデータの項目に関連する第一のデータの項目を特定し、
前記第1記憶部を参照して、特定した前記第一のデータの項目に対応する前記第一のデータの位置を特定する情報を用いて、前記文書から前記第一のデータを取得し、
前記第2記憶部を参照して、取得した前記第一のデータの項目を、特定のデータの項目とした場合における、該特定のデータの項目と第一の関連を有する第一のデータの項目を第三のデータの項目として特定し、
前記第1記憶部を参照して、特定した前記第三のデータの項目に対応する前記第一のデータの位置を特定する情報を用いて、取得した前記第一のデータと前記第一の関連を有する前記第三のデータを前記文書から取得し、
前記あるサイトのサーバから取得した前記文書から、前記第三のデータが取得出来なかった場合に、前記第2記憶部を参照して、取得を試みた前記特定のデータの項目に関連する第二のデータの項目を特定し、
前記第1記憶部を参照して、特定した前記第二のデータの項目に対応する前記第二のデータの位置を特定する情報を用いて、前記文書から前記第二のデータを取得し、
前記第2記憶部を参照して、取得した前記第二のデータの項目を、特定のデータの項目とした場合における、該特定のデータの項目と第二の関連を有する第二のデータの項目を関連データの項目として特定し、
前記第1記憶部を参照して、特定した前記関連データの項目に対応する特定のデータと第二の関連を有する前記第二のデータの位置を特定する情報を用いて、取得した前記第二のデータと前記第二の関連を有する前記関連データを前記文書から取得する、
処理をコンピュータが実行することを特徴とする情報取得方法。 - あるサイトの文書中における特定のデータの位置を特定する情報と、該文書中における該特定のデータとの間で所定の関連を有する他のデータの位置を特定する情報とを記憶する第1記憶部と、
特定のデータの項目と他のデータの項目との所定の関連を、特定のデータの項目ごとに対応付けて記憶する第2記憶部と、
前記第1記憶部を参照して、前記あるサイトの文書中における特定のデータの位置を特定する情報を用いて、前記文書から前記特定のデータを取得する処理、取得した前記特定のデータの項目に関連する他のデータの項目を特定する処理、前記第1記憶部を参照して、特定した前記他のデータの項目に対応する前記他のデータの位置を特定する情報を用いて、前記文書から前記他のデータを取得する処理、前記第2記憶部を参照して、取得した前記他のデータの項目を、特定のデータの項目とした場合における、該特定のデータの項目と所定の関連を有する他のデータの項目を関連データの項目として特定する処理、および、前記第1記憶部を参照して、特定した前記関連データの項目に対応する特定のデータと所定の関連を有する前記他のデータの位置を特定する情報を用いて、取得した前記他のデータと前記所定の関連を有する前記関連データを取得する処理の各処理を実行可能な制御部と、
を有することを特徴とする情報取得装置。 - あるサイトの文書中における特定のデータの位置を特定する情報と、該文書中における該特定のデータとの間で第一の関連を有する第一のデータの位置を特定する情報と、該文書中における該特定のデータとの間で第二の関連を有する第二のデータの位置を特定する情報とを記憶する第1記憶部と、
特定のデータの項目と第一のデータの項目との第一の関連、および、特定のデータの項目と第二のデータの項目との第二の関連を、特定のデータの項目ごとに対応付けて記憶する第2記憶部と、
前記第1記憶部を参照して、前記あるサイトの文書中における特定のデータの位置を特定する情報を用いて、前記文書から前記特定のデータが取得出来なかった場合に、前記第2記憶部を参照して、取得を試みた前記特定のデータの項目に関連する第一のデータの項目を特定する処理、前記第1記憶部を参照して、特定した前記第一のデータの項目に対応する前記第一のデータの位置を特定する情報を用いて、前記文書から前記第一のデータを取得する処理、前記第2記憶部を参照して、取得した前記第一のデータの項目を、特定のデータの項目とした場合における、該特定のデータの項目と第一の関連を有する第一のデータの項目を第三のデータの項目として特定する処理、および、前記第1記憶部を参照して、特定した前記第三のデータの項目に対応する前記第一のデータの位置を特定する情報を用いて、取得した前記第一のデータと前記第一の関連を有する前記第三のデータを取得する処理の各処理を実行し、前記第三のデータが取得出来なかった場合に、前記第2記憶部を参照して、取得を試みた前記特定のデータの項目に関連する第二のデータの項目を特定する処理、前記第1記憶部を参照して、特定した前記第二のデータの項目に対応する前記第二のデータの位置を特定する情報を用いて、前記文書から前記第二のデータを取得する処理、前記第2記憶部を参照して、取得した前記第二のデータの項目を、特定のデータの項目とした場合における、該特定のデータの項目と第二の関連を有する第二のデータの項目を関連データの項目として特定する処理、および、前記第1記憶部を参照して、特定した前記関連データの項目に対応する特定のデータと第二の関連を有する前記第二のデータの位置を特定する情報を用いて、取得した前記第二のデータと前記第二の関連を有する前記関連データを取得する処理の各処理を実行可能な制御部と、
を有することを特徴とする情報取得装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2014/080269 WO2016075830A1 (ja) | 2014-11-14 | 2014-11-14 | 情報取得プログラム、情報取得方法および情報取得装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2016075830A1 JPWO2016075830A1 (ja) | 2017-08-31 |
JP6601412B2 true JP6601412B2 (ja) | 2019-11-06 |
Family
ID=55953943
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016558844A Active JP6601412B2 (ja) | 2014-11-14 | 2014-11-14 | 情報取得プログラム、情報取得方法および情報取得装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10726076B2 (ja) |
EP (1) | EP3220287A4 (ja) |
JP (1) | JP6601412B2 (ja) |
SG (1) | SG11201703836RA (ja) |
WO (1) | WO2016075830A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10922366B2 (en) * | 2018-03-27 | 2021-02-16 | International Business Machines Corporation | Self-adaptive web crawling and text extraction |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3877957B2 (ja) | 2000-11-30 | 2007-02-07 | シャープ株式会社 | 情報の集約整理支援システム |
JP2004086272A (ja) * | 2002-08-23 | 2004-03-18 | Ntt Data Corp | 位置情報処理装置、方法及びコンピュータプログラム |
JP4881205B2 (ja) * | 2007-03-29 | 2012-02-22 | ヤフー株式会社 | ブックマーク管理装置、ブックマーク管理方法及びコンピュータプログラム |
JP2008282114A (ja) | 2007-05-09 | 2008-11-20 | Profield Co Ltd | 情報処理装置、サーバ装置、情報処理システム、情報処理方法、およびプログラム |
JP4957796B2 (ja) * | 2007-05-24 | 2012-06-20 | 富士通株式会社 | 差分算出プログラム、差分算出装置および差分算出方法 |
JP2011150462A (ja) * | 2010-01-20 | 2011-08-04 | Nec Corp | 広告配信システム、広告配信装置、広告配信方法およびプログラム |
US20120311436A1 (en) * | 2011-06-03 | 2012-12-06 | Research In Motion Limited | Dynamic display of content using an electronic device |
WO2014127535A1 (en) * | 2013-02-22 | 2014-08-28 | Google Inc. | Systems and methods for automated content generation |
US9304976B1 (en) * | 2013-11-21 | 2016-04-05 | Mashable, Inc. | Positioning media to go viral |
-
2014
- 2014-11-14 EP EP14905987.5A patent/EP3220287A4/en not_active Withdrawn
- 2014-11-14 JP JP2016558844A patent/JP6601412B2/ja active Active
- 2014-11-14 WO PCT/JP2014/080269 patent/WO2016075830A1/ja active Application Filing
- 2014-11-14 SG SG11201703836RA patent/SG11201703836RA/en unknown
-
2017
- 2017-05-09 US US15/590,629 patent/US10726076B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
EP3220287A1 (en) | 2017-09-20 |
US10726076B2 (en) | 2020-07-28 |
EP3220287A4 (en) | 2017-10-11 |
SG11201703836RA (en) | 2017-06-29 |
US20170242853A1 (en) | 2017-08-24 |
JPWO2016075830A1 (ja) | 2017-08-31 |
WO2016075830A1 (ja) | 2016-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10769216B2 (en) | Data acquisition method, data acquisition apparatus, and recording medium | |
JP6764115B2 (ja) | 表示プログラム、表示方法および表示装置 | |
KR20170073693A (ko) | 유사 그룹 요소 추출 | |
JP4722697B2 (ja) | 情報表示システム | |
JP6601412B2 (ja) | 情報取得プログラム、情報取得方法および情報取得装置 | |
JP2008123425A (ja) | ウェブ文書データ提供装置、方法、およびシステム | |
JP2008071116A (ja) | 情報配信システム、情報配信装置、情報配信方法および情報配信用プログラム | |
JP5585816B2 (ja) | ポータルサイト生成システム、ポータルサイト生成方法、及びコンピュータプログラム | |
JP5426501B2 (ja) | ドキュメント閲覧システム及びドキュメント画像配信装置並びにドキュメント閲覧方法 | |
JP2018152015A (ja) | 記憶制御装置、記憶制御プログラムおよび記憶制御方法 | |
JP2006209598A (ja) | サイト情報収集システム | |
JP6915322B2 (ja) | ウェブサイト比較処理プログラム、ウェブサイト比較方法およびウェブサイトを比較する装置 | |
JP6528341B1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2017220104A (ja) | クライアント装置、情報処理システム及びプログラム | |
JP6520955B2 (ja) | データ検証プログラム、データ検証方法及びデータ検証装置 | |
JP2020042660A (ja) | 電子ファイル管理装置、電子ファイル管理プログラム、及び電子ファイル管理システム | |
EP3220284A1 (en) | Data acquisition program, data acquisition method and data acquisition device | |
JP6485462B2 (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
JP2009176176A (ja) | ウェブページ配信装置 | |
JP2007279980A (ja) | データ収集装置およびプログラム | |
Vigo et al. | Automatic device-tailored evaluation of mobile web guidelines | |
JP2007086842A (ja) | 入力フォーム提示システムおよび方法 | |
US20150347610A1 (en) | Methods and apparatus for modifying a plurality of markup language files | |
JP2008071115A (ja) | ウェブページ作成支援装置 | |
JP2008040868A (ja) | コンテンツ発行装置、コンテンツ発行プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170512 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170512 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180731 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180928 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190226 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190411 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190910 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190923 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6601412 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |