JP6493413B2 - データ取得プログラム、データ取得方法及びデータ取得装置 - Google Patents
データ取得プログラム、データ取得方法及びデータ取得装置 Download PDFInfo
- Publication number
- JP6493413B2 JP6493413B2 JP2016558847A JP2016558847A JP6493413B2 JP 6493413 B2 JP6493413 B2 JP 6493413B2 JP 2016558847 A JP2016558847 A JP 2016558847A JP 2016558847 A JP2016558847 A JP 2016558847A JP 6493413 B2 JP6493413 B2 JP 6493413B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- unit
- document
- extracted
- data acquisition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 20
- 238000000605 extraction Methods 0.000 claims description 36
- 239000000284 extract Substances 0.000 claims description 13
- 238000013500 data storage Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 18
- 238000004891 communication Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 9
- 230000010365 information processing Effects 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 235000009419 Fagopyrum esculentum Nutrition 0.000 description 1
- 240000008620 Fagopyrum esculentum Species 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/14—Tree-structured documents
- G06F40/143—Markup, e.g. Standard Generalized Markup Language [SGML] or Document Type Definition [DTD]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2246—Trees, e.g. B+trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/221—Parsing markup language streams
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Library & Information Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
101 入力部
102 表示部
110 通信部
120 記憶部
121 対象記憶部
122 ページ記憶部
123 抽出データ記憶部
124 位置記憶部
130 制御部
131 受付部
132 クロール部
133 抽出部
134 表示制御部
135 登録部
N ネットワーク
Claims (7)
- HTMLで記述された文書の中から、互いの間を所定のタグ又は記号で区切られた第一のデータと第二のデータとを抽出し、
前記文書内の各行において抽出した前記第一のデータと前記第二のデータとを対応付けた組が複数ある場合には、該組ごとに分離するように、抽出した前記第一のデータと前記第二のデータとを対応付けて表示し、
表示した前記第一のデータ又は前記第二のデータが選択されたことを検出すると、前記文書における前記第一のデータ又は前記第二のデータの、前記文書に含まれるタグの階層構造上の位置を特定し、該階層構造上の位置を登録することを許容する
処理をコンピュータに実行させることを特徴とするデータ取得プログラム。 - 前記所定のタグ又は記号で区切られた第一のデータと第二のデータは、表の開始と終了を示すタグに挟まれ、該表における見出しに対応するデータと該見出しに関連するセルに対応するデータであることを特徴とする請求項1に記載のデータ取得プログラム。
- 前記所定のタグ又は記号で区切られた第一のデータと第二のデータは、リストの開始と終了を示すタグに挟まれ、該リストにおける用語に対応するデータと該用語に関連する説明に対応するデータであることを特徴とする請求項1に記載のデータ取得プログラム。
- 前記所定のタグは、</DT><DD>又は</TH><TD>であることを特徴とする請求項1に記載のデータ取得プログラム。
- 前記所定の記号は、/又は:であることを特徴とする請求項1に記載のデータ取得プログラム。
- HTMLで記述された文書の中から、互いの間を所定のタグ又は記号で区切られた第一のデータと第二のデータとを抽出し、
前記文書内の各行において抽出した前記第一のデータと前記第二のデータとを対応付けた組が複数ある場合には、該組ごとに分離するように、抽出した前記第一のデータと前記第二のデータとを対応付けて表示し、
表示した前記第一のデータ又は前記第二のデータが選択されたことを検出すると、前記文書における前記第一のデータ又は前記第二のデータの、前記文書に含まれるタグの階層構造上の位置を特定し、該階層構造上の位置を登録することを許容する
処理をコンピュータが実行することを特徴とするデータ取得方法。 - HTMLで記述された文書の中から、互いの間を所定のタグ又は記号で区切られた第一のデータと第二のデータとを抽出する抽出部と、
前記文書内の各行において抽出した前記第一のデータと前記第二のデータとを対応付けた組が複数ある場合には、該組ごとに分離するように、抽出した前記第一のデータと前記第二のデータとを対応付けて表示させる表示制御部と、
表示された前記第一のデータ又は前記第二のデータが選択されたことを検出すると、前記文書における前記第一のデータ又は前記第二のデータの、前記文書に含まれるタグの階層構造上の位置を特定し、該階層構造上の位置を登録することを許容する登録部と
を有することを特徴とするデータ取得装置。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2014/080272 WO2016075833A1 (ja) | 2014-11-14 | 2014-11-14 | データ取得プログラム、データ取得方法及びデータ取得装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2016075833A1 JPWO2016075833A1 (ja) | 2017-09-28 |
JP6493413B2 true JP6493413B2 (ja) | 2019-04-03 |
Family
ID=55953946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016558847A Active JP6493413B2 (ja) | 2014-11-14 | 2014-11-14 | データ取得プログラム、データ取得方法及びデータ取得装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20170242839A1 (ja) |
EP (1) | EP3220284A4 (ja) |
JP (1) | JP6493413B2 (ja) |
SG (1) | SG11201703829SA (ja) |
WO (1) | WO2016075833A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10922366B2 (en) * | 2018-03-27 | 2021-02-16 | International Business Machines Corporation | Self-adaptive web crawling and text extraction |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7574486B1 (en) * | 2000-11-06 | 2009-08-11 | Telecommunication Systems, Inc. | Web page content translator |
JP2005301437A (ja) * | 2004-04-07 | 2005-10-27 | Hitachi Ins Software Ltd | 適応型ウエブページデータ抽出装置および抽出プログラム |
JP2005326970A (ja) * | 2004-05-12 | 2005-11-24 | Mitsubishi Electric Corp | 構造化文書曖昧検索装置及びそのプログラム |
US7788293B2 (en) * | 2005-03-02 | 2010-08-31 | Google Inc. | Generating structured information |
US7810021B2 (en) * | 2006-02-24 | 2010-10-05 | Paxson Dana W | Apparatus and method for creating literary macramés |
CN101094194B (zh) * | 2006-06-19 | 2010-06-23 | 腾讯科技(深圳)有限公司 | 一种提取Web页面中用户所需Web信息的方法 |
WO2009110550A1 (ja) * | 2008-03-06 | 2009-09-11 | 日本電気株式会社 | 属性抽出方法、システム及びプログラム |
JP5225331B2 (ja) * | 2010-06-30 | 2013-07-03 | ヤフー株式会社 | データ抽出装置及び方法 |
US8868621B2 (en) * | 2010-10-21 | 2014-10-21 | Rillip, Inc. | Data extraction from HTML documents into tables for user comparison |
JP5443322B2 (ja) * | 2010-11-11 | 2014-03-19 | 日本電信電話株式会社 | 情報抽出装置、情報抽出方法および情報抽出プログラム |
CN103034633B (zh) * | 2011-09-30 | 2016-08-03 | 国际商业机器公司 | 生成扩展的搜索结果页面摘要的方法及装置 |
US20130311875A1 (en) * | 2012-04-23 | 2013-11-21 | Derek Edwin Pappas | Web browser embedded button for structured data extraction and sharing via a social network |
US9588785B2 (en) * | 2013-10-04 | 2017-03-07 | Aol Inc. | General property hierarchy systems and methods for web applications |
EP3161673B1 (en) * | 2014-06-30 | 2020-12-02 | Microsoft Technology Licensing, LLC | Understanding tables for search |
-
2014
- 2014-11-14 EP EP14905678.0A patent/EP3220284A4/en not_active Ceased
- 2014-11-14 SG SG11201703829SA patent/SG11201703829SA/en unknown
- 2014-11-14 JP JP2016558847A patent/JP6493413B2/ja active Active
- 2014-11-14 WO PCT/JP2014/080272 patent/WO2016075833A1/ja active Application Filing
-
2017
- 2017-05-08 US US15/589,194 patent/US20170242839A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
EP3220284A1 (en) | 2017-09-20 |
EP3220284A4 (en) | 2017-09-20 |
WO2016075833A1 (ja) | 2016-05-19 |
JPWO2016075833A1 (ja) | 2017-09-28 |
US20170242839A1 (en) | 2017-08-24 |
SG11201703829SA (en) | 2017-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10769216B2 (en) | Data acquisition method, data acquisition apparatus, and recording medium | |
JP7290391B2 (ja) | 情報処理装置及びプログラム | |
CN114637866B (zh) | 数字化新媒体的信息管理方法及装置 | |
JP6493413B2 (ja) | データ取得プログラム、データ取得方法及びデータ取得装置 | |
JP6520955B2 (ja) | データ検証プログラム、データ検証方法及びデータ検証装置 | |
CN103246680A (zh) | 一种在浏览器中将网页内容聚合展现的方法及装置 | |
JP6780548B2 (ja) | 特徴語分類プログラム、特徴語分類方法および情報処理装置 | |
US10726076B2 (en) | Information acquisition method, and information acquisition device | |
CN114004209A (zh) | Pdf格式数据导出方法、装置、电子设备及可读存储介质 | |
JP2008102773A (ja) | データを共通のフォーマットに変換する方法 | |
CN113139145A (zh) | 页面生成方法、装置、电子设备及可读存储介质 | |
CN111078949A (zh) | 产品知识存储方法、装置、计算机设备和可读存储介质 | |
JP2018152015A (ja) | 記憶制御装置、記憶制御プログラムおよび記憶制御方法 | |
JP6915322B2 (ja) | ウェブサイト比較処理プログラム、ウェブサイト比較方法およびウェブサイトを比較する装置 | |
EP3376410A1 (en) | Method of searching information, information processing apparatus and non-transitory computer-readable storage medium | |
JP2008059262A (ja) | トレーサビリティ管理システム | |
JP6805636B2 (ja) | 情報抽出プログラム、情報抽出方法および情報抽出装置 | |
JP5670377B2 (ja) | Web閲覧履歴取得装置及びプログラム | |
CN114168836A (zh) | 网页数据分析及可视化方法、装置、电子设备及介质 | |
JP5252643B2 (ja) | アクセシビリティ診断支援システム | |
JP2018151983A (ja) | 位置情報出力プログラム、位置情報出力方法および情報処理装置 | |
JP2011150447A (ja) | レイアウト支援装置、レイアウト支援方法、プログラム | |
JP2011237908A (ja) | 情報検索システム、情報検索方法及び情報検索プログラム | |
JP2019040261A (ja) | 情報処理装置及びプログラム | |
JP2013114528A (ja) | 例文表示装置及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170518 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170518 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180626 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180815 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190205 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190218 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6493413 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |