JP6493413B2 - データ取得プログラム、データ取得方法及びデータ取得装置 - Google Patents
データ取得プログラム、データ取得方法及びデータ取得装置 Download PDFInfo
- Publication number
- JP6493413B2 JP6493413B2 JP2016558847A JP2016558847A JP6493413B2 JP 6493413 B2 JP6493413 B2 JP 6493413B2 JP 2016558847 A JP2016558847 A JP 2016558847A JP 2016558847 A JP2016558847 A JP 2016558847A JP 6493413 B2 JP6493413 B2 JP 6493413B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- unit
- document
- extracted
- data acquisition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/221—Parsing markup language streams
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Library & Information Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
101 入力部
102 表示部
110 通信部
120 記憶部
121 対象記憶部
122 ページ記憶部
123 抽出データ記憶部
124 位置記憶部
130 制御部
131 受付部
132 クロール部
133 抽出部
134 表示制御部
135 登録部
N ネットワーク
Claims (7)
- HTMLで記述された文書の中から、互いの間を所定のタグ又は記号で区切られた第一のデータと第二のデータとを抽出し、
前記文書内の各行において抽出した前記第一のデータと前記第二のデータとを対応付けた組が複数ある場合には、該組ごとに分離するように、抽出した前記第一のデータと前記第二のデータとを対応付けて表示し、
表示した前記第一のデータ又は前記第二のデータが選択されたことを検出すると、前記文書における前記第一のデータ又は前記第二のデータの、前記文書に含まれるタグの階層構造上の位置を特定し、該階層構造上の位置を登録することを許容する
処理をコンピュータに実行させることを特徴とするデータ取得プログラム。 - 前記所定のタグ又は記号で区切られた第一のデータと第二のデータは、表の開始と終了を示すタグに挟まれ、該表における見出しに対応するデータと該見出しに関連するセルに対応するデータであることを特徴とする請求項1に記載のデータ取得プログラム。
- 前記所定のタグ又は記号で区切られた第一のデータと第二のデータは、リストの開始と終了を示すタグに挟まれ、該リストにおける用語に対応するデータと該用語に関連する説明に対応するデータであることを特徴とする請求項1に記載のデータ取得プログラム。
- 前記所定のタグは、</DT><DD>又は</TH><TD>であることを特徴とする請求項1に記載のデータ取得プログラム。
- 前記所定の記号は、/又は:であることを特徴とする請求項1に記載のデータ取得プログラム。
- HTMLで記述された文書の中から、互いの間を所定のタグ又は記号で区切られた第一のデータと第二のデータとを抽出し、
前記文書内の各行において抽出した前記第一のデータと前記第二のデータとを対応付けた組が複数ある場合には、該組ごとに分離するように、抽出した前記第一のデータと前記第二のデータとを対応付けて表示し、
表示した前記第一のデータ又は前記第二のデータが選択されたことを検出すると、前記文書における前記第一のデータ又は前記第二のデータの、前記文書に含まれるタグの階層構造上の位置を特定し、該階層構造上の位置を登録することを許容する
処理をコンピュータが実行することを特徴とするデータ取得方法。 - HTMLで記述された文書の中から、互いの間を所定のタグ又は記号で区切られた第一のデータと第二のデータとを抽出する抽出部と、
前記文書内の各行において抽出した前記第一のデータと前記第二のデータとを対応付けた組が複数ある場合には、該組ごとに分離するように、抽出した前記第一のデータと前記第二のデータとを対応付けて表示させる表示制御部と、
表示された前記第一のデータ又は前記第二のデータが選択されたことを検出すると、前記文書における前記第一のデータ又は前記第二のデータの、前記文書に含まれるタグの階層構造上の位置を特定し、該階層構造上の位置を登録することを許容する登録部と
を有することを特徴とするデータ取得装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2014/080272 WO2016075833A1 (ja) | 2014-11-14 | 2014-11-14 | データ取得プログラム、データ取得方法及びデータ取得装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2016075833A1 JPWO2016075833A1 (ja) | 2017-09-28 |
JP6493413B2 true JP6493413B2 (ja) | 2019-04-03 |
Family
ID=55953946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016558847A Active JP6493413B2 (ja) | 2014-11-14 | 2014-11-14 | データ取得プログラム、データ取得方法及びデータ取得装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20170242839A1 (ja) |
EP (1) | EP3220284A4 (ja) |
JP (1) | JP6493413B2 (ja) |
SG (1) | SG11201703829SA (ja) |
WO (1) | WO2016075833A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10922366B2 (en) * | 2018-03-27 | 2021-02-16 | International Business Machines Corporation | Self-adaptive web crawling and text extraction |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7574486B1 (en) * | 2000-11-06 | 2009-08-11 | Telecommunication Systems, Inc. | Web page content translator |
JP2005301437A (ja) * | 2004-04-07 | 2005-10-27 | Hitachi Ins Software Ltd | 適応型ウエブページデータ抽出装置および抽出プログラム |
JP2005326970A (ja) * | 2004-05-12 | 2005-11-24 | Mitsubishi Electric Corp | 構造化文書曖昧検索装置及びそのプログラム |
US7788293B2 (en) * | 2005-03-02 | 2010-08-31 | Google Inc. | Generating structured information |
US7810021B2 (en) * | 2006-02-24 | 2010-10-05 | Paxson Dana W | Apparatus and method for creating literary macramés |
CN101094194B (zh) * | 2006-06-19 | 2010-06-23 | 腾讯科技(深圳)有限公司 | 一种提取Web页面中用户所需Web信息的方法 |
JP5445787B2 (ja) * | 2008-03-06 | 2014-03-19 | 日本電気株式会社 | 属性抽出方法、システム及びプログラム |
JP5225331B2 (ja) * | 2010-06-30 | 2013-07-03 | ヤフー株式会社 | データ抽出装置及び方法 |
US8868621B2 (en) * | 2010-10-21 | 2014-10-21 | Rillip, Inc. | Data extraction from HTML documents into tables for user comparison |
JP5443322B2 (ja) * | 2010-11-11 | 2014-03-19 | 日本電信電話株式会社 | 情報抽出装置、情報抽出方法および情報抽出プログラム |
CN103034633B (zh) * | 2011-09-30 | 2016-08-03 | 国际商业机器公司 | 生成扩展的搜索结果页面摘要的方法及装置 |
US20130311875A1 (en) * | 2012-04-23 | 2013-11-21 | Derek Edwin Pappas | Web browser embedded button for structured data extraction and sharing via a social network |
US9588785B2 (en) * | 2013-10-04 | 2017-03-07 | Aol Inc. | General property hierarchy systems and methods for web applications |
BR112016027272A2 (pt) * | 2014-06-30 | 2021-06-08 | Microsoft Technology Licensing Llc | método para detectar uma ou mais colunas de assunto de uma tabela, método para detectar um cabeçalho de coluna para tabela incluindo uma ou mais linhas e sistema |
-
2014
- 2014-11-14 SG SG11201703829SA patent/SG11201703829SA/en unknown
- 2014-11-14 WO PCT/JP2014/080272 patent/WO2016075833A1/ja active Application Filing
- 2014-11-14 EP EP14905678.0A patent/EP3220284A4/en not_active Ceased
- 2014-11-14 JP JP2016558847A patent/JP6493413B2/ja active Active
-
2017
- 2017-05-08 US US15/589,194 patent/US20170242839A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
JPWO2016075833A1 (ja) | 2017-09-28 |
SG11201703829SA (en) | 2017-06-29 |
US20170242839A1 (en) | 2017-08-24 |
WO2016075833A1 (ja) | 2016-05-19 |
EP3220284A1 (en) | 2017-09-20 |
EP3220284A4 (en) | 2017-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102460432B (zh) | 选择性内容提取 | |
US20170300574A1 (en) | Data acquisition method, data acquisition apparatus, and recording medium | |
CN106547749A (zh) | 网页数据采集的方法和装置 | |
KR101556743B1 (ko) | 웹 수집에 기반한 관심 정보 생성 장치 및 그 방법 | |
JP7290391B2 (ja) | 情報処理装置及びプログラム | |
CN114637866A (zh) | 数字化新媒体的信息管理方法及装置 | |
CN113139145B (zh) | 页面生成方法、装置、电子设备及可读存储介质 | |
CN108614686A (zh) | 画面信息生成装置、画面信息生成方法及记录介质 | |
JP6493413B2 (ja) | データ取得プログラム、データ取得方法及びデータ取得装置 | |
EP3220286A1 (en) | Data verification program, data verification method and data verification device | |
EP2521045A1 (en) | Content configuration method | |
CN111078949A (zh) | 产品知识存储方法、装置、计算机设备和可读存储介质 | |
CN103246680A (zh) | 一种在浏览器中将网页内容聚合展现的方法及装置 | |
US10726076B2 (en) | Information acquisition method, and information acquisition device | |
CN116009863A (zh) | 前端页面渲染方法、设备及存储介质 | |
JP6915322B2 (ja) | ウェブサイト比較処理プログラム、ウェブサイト比較方法およびウェブサイトを比較する装置 | |
JP5707937B2 (ja) | 電子文書変換装置及び電子文書変換方法 | |
US20140074455A1 (en) | Method and system for motif extraction in electronic documents | |
JP2018152015A (ja) | 記憶制御装置、記憶制御プログラムおよび記憶制御方法 | |
WO2016113887A1 (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
CN105224539B (zh) | 页面文件的处理方法和装置 | |
JP2014010795A (ja) | 電子帳票システム及び電子帳票の管理方法並びに電子帳票の管理プログラム | |
JP5670377B2 (ja) | Web閲覧履歴取得装置及びプログラム | |
JP2018005637A (ja) | 検索プログラム、検索方法および検索装置 | |
JP6264910B2 (ja) | アグリゲーションプログラム、端末装置及びアグリゲーション方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170518 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170518 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180626 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180815 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190218 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6493413 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |