CN110874428A - 电商页面的结构化数据提取装置、方法及可读存储介质 - Google Patents
电商页面的结构化数据提取装置、方法及可读存储介质 Download PDFInfo
- Publication number
- CN110874428A CN110874428A CN201911094002.0A CN201911094002A CN110874428A CN 110874428 A CN110874428 A CN 110874428A CN 201911094002 A CN201911094002 A CN 201911094002A CN 110874428 A CN110874428 A CN 110874428A
- Authority
- CN
- China
- Prior art keywords
- tags
- page
- commerce
- preset
- commerce page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0641—Shopping interfaces
Abstract
一种电商页面的结构化数据提取方法、装置及计算机可读存储介质,所述方法包括:获取电商页面并对所述电商页面进行预处理;基于预处理后的电商页面生成超文本标签树;从所述超文本标签树中遍历出预设标签的页面文本;将遍历得到的页面文本中的预设属性值与预设词库中的每一词语进行逐一匹配,以得到与所述预设词库的词语匹配的匹配文本;及将匹配得到的匹配文本按照预设顺序进行排序并输出商品结构化摘要。本发明可对抓取的电商页面进行解析,进而提取得到关于商品的结构化信息集。
Description
技术领域
本发明涉及页面处理技术领域,尤其涉及一种电商页面的结构化数据提取装置、方法及计算机可读存储介质。
背景技术
电子商务业务量近年得到快速增长,受到众多企业的关注。电商平台拥有海量的交易数据,电商企业可以利用这些数据进行贸易管理、商业决策、实时监测营销活动、优化供应链、开展精准营销、提供个性化服务等。因此,电商的竞争已经逐步变成了数据拥有的竞争。虽然可以通过网页抓取技术获取多个电商网站的页面,但由于页面内容为非结构化内容,数据分析效果不佳,导致抓取的页面的商业价值不高。
发明内容
有鉴于此,有必要提供一种电商页面的结构化数据提取装置、方法及计算机可读存储介质,可对电商页面进行解析,进而提取得到关于商品的结构化信息。
本发明一实施方式提供一种电商页面的结构化数据提取方法,所述方法包括:获取电商页面并对所述电商页面进行预处理;基于预处理后的电商页面生成超文本标签树;从所述超文本标签树中遍历出预设标签的页面文本;将遍历得到的页面文本中的预设属性值与预设词库中的每一词语进行逐一匹配,以得到与所述预设词库的词语匹配的匹配文本;及将匹配得到的匹配文本按照预设顺序进行排序并输出商品结构化摘要。
优选地,所述预处理包括:去除所述电商页面的导航条、广告条、超链接及网页底部说明;去除所述电商页面的JavaScript代码;及去除所述电商页面中的多个指定标签及商品分类信息。
优选地,所述基于预处理后的电商页面生成超文本标签树的步骤包括:对预处理后的电商页面的源代码进行解析,以生成所述超文本标签树。
优选地,所述对预处理后的电商页面的源代码进行解析,以生成所述超文本标签树的步骤包括:从预处理后的电商页面的源代码解析出多个目标标签;及利用栈将多个所述目标标签生成所述超文本标签树。
优选地,所述预设标签包括:<div>标签、</div>标签、<ul>标签、 <li>标签、<p>标签、</p>标签、<table>标签、</table>标签、<tr>标签、 </tr>标签、<td>标签、</td>标签。
优选地,所述预设属性值为id属性的属性值、class属性的属性值及name属性的属性值。
优选地,所述将匹配得到的匹配文本按照预设顺序进行排序并输出商品结构化摘要的步骤之前还包括:判断匹配得到的匹配文本是否为中文文本;及若匹配得到的匹配文本不是中文文本,则将所述匹配文本翻译成中文文本。
本发明一实施方式提供一种电商页面的结构化数据提取装置,所述装置包括处理器及存储器,所述存储器上存储有若干计算机程序,所述处理器用于执行存储器中存储的计算机程序时实现上述电商页面的结构化数据提取方法的步骤。
本发明一实施方式还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,多条所述指令可被一个或者多个处理器执行,以实现上述的电商页面的结构化数据提取方法的步骤。
与现有技术相比,上述电商页面的结构化数据提取装置、方法及计算机可读存储介质,可以将爬取得到的电商页面自动转化为结构化的商品摘要文本,以便于进行数据分析。
附图说明
图1是本发明一实施方式的结构化数据提取装置的功能模块图。
图2是本发明一实施方式的结构化数据提取程序的功能模块图。
图3是本发明一实施方式的超文本标签树的示意图。
图4是本发明一实施方式的结构化数据提取方法的流程图。
主要元件符号说明
存储器 | 10 |
处理器 | 20 |
结构化数据提取程序 | 30 |
预处理模块 | 101 |
生成模块 | 102 |
遍历模块 | 103 |
匹配模块 | 104 |
输出模块 | 105 |
结构化数据提取装置 | 100 |
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
进一步需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
请参阅图1,为本发明电商页面的结构化数据提取装置较佳实施例的示意图。
结构化数据提取装置100可以在获取到电商网站的页面后,对电商页面进行解析,以输出关于商品的结构化信息。所述结构化数据提取装置100可以包括存储器10、处理器20以及存储在所述存储器10 中并可在所述处理器20上运行的结构化数据提取程序30。所述处理器 20执行所述结构化数据提取程序30时实现结构化数据提取方法实施例中的步骤,例如图4所示的步骤S400~S408。或者,所述处理器20 执行所述结构化数据提取程序30时实现图2中各模块的功能,例如模块101~105。
所述结构化数据提取程序30可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器10中,并由所述处理器20执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,所述指令段用于描述所述结构化数据提取程序30在所述结构化数据提取装置100中的执行过程。例如,所述结构化数据提取程序30可以被分割成图2中的预处理模块101、生成模块102、遍历模块103、匹配模块104及输出模块105。各模块具体功能参见图2中各模块的功能。
本领域技术人员可以理解,所述示意图仅是结构化数据提取装置100的示例,并不构成对结构化数据提取装置100的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述结构化数据提取装置100还可以包括显示模块、通信模块、总线等。
所称处理器20可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor, DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者所述处理器20也可以是任何常规的处理器等,所述处理器20可以利用各种接口和总线连接结构化数据提取装置100的各个部分。
所述存储器10可用于存储所述结构化数据提取程序30和/或模块,所述处理器20通过运行或执行存储在所述存储器10内的计算机程序和/或模块,以及调用存储在存储器10内的数据,实现所述结构化数据提取装置100的各种功能。所述存储器10可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD) 卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。
图2为本发明结构化数据提取程序较佳实施例的功能模块图。
参阅图2所示,结构化数据提取程序30可以包括预处理模块101、生成模块102、遍历模块103、匹配模块104及输出模块105。在一实施方式中,上述模块可以为存储于所述存储器10中且可被所述处理器 20调用执行的可程序化软件指令。可以理解的是,在其他实施方式中,上述模块也可为固化于所述处理器20中的程序指令或固件(firmware)。
所述预处理模块101用于获取电商页面并对所述电商页面进行预处理。
在一实施方式中,可以利用网络爬虫技术抓取互联网中各电商网站的页面,抓取到的电商页面可以包括电商页面的网址和源代码(如 HTML代码)。由于电商网站的页面用词具有一定的相似性和稳定性,比如包括:商铺(shop/mall)、商品(product/commodity)、价格(price)、快递(express)、订单(order)等电商行业用语,再具体到电商页面,比如包括:“title”、“describe”、“comment”、“list”、“sort”等的语义十分明显的用词,在商品信息标签上,多用<div>、<ul>、<li>标签或者<table>、 <tr>、<td>标签来实现层级显示。基于上述电商页面特点,可以对电商页面进行解析来输出关于该电商页面中的商品的结构化信息。
在一实施方式中,所述预处理模块101对所述电商页面进行预处理的方式可以包括以下一种或多种:去除所述电商页面的导航条、广告条、超链接及网页底部说明,去除所述电商页面的JavaScript代码,去除所述电商页面的<input>、<form>、<img>、<object>、<!--注释--> 等标签,去除商品分类信息。
在一实施方式中,可以预先建立一待爬取的网页数据表,利用网络爬虫技术抓取电商页面。当利用网络爬虫技术抓取电商页面时,还可以存储抓取的电商页面底部的网站链接,当这些链接对应的网页的结构与目标样本网页的结构相同或者相似时,可以将这些链接加入待爬取的网页数据表中,以进行网页抓取。所述目标样本网页可以是目标电商样本网页,所述与目标样本网页的结构相同或者相似可以是指该链接对应的网页为电商网页,且其页面商品与目标样本网页的商品类别相同或者相近似。
所述生成模块102用于基于预处理后的电商页面生成超文本标签树。
在一实施方式中,所述生成模块102可实现对html源文件解析成一棵以html标签为节点的树。具体地,所述生成模块102可以对预处理后的电商页面的源代码进行解析,以生成超文本标签树。所述源代码的解析方式可以是对预处理后的电商页面的源代码解析出多个目标标签,然后利用栈将多个所述目标标签生成所述超文本标签树。
举例而言,所述超文本标签树可以如图3所示,所述超文本标签树所包含的目标节点可以是:“head”、“body”、“table”、“tr”、“td”等节点,根节点以“html”表示。
所述遍历模块103用于从所述超文本标签树中遍历出预设标签的页面文本。
在一实施方式中,由于电商网站在商品信息标签上多采用<div>标签、<ul>标签、<li>标签、<table>标签、<tr>标签、<td>标签等来实现层级显示,进而所述预设标签可以设定为包括:<div>标签、</div>标签、<ul>标签、<li>标签、<p>标签、</p>标签、<table>标签、</table> 标签、<tr>标签、</tr>标签、<td>标签、</td>标签等。可以理解的,所述预设标签的内容可以根据实际需求进行设定与调整。当生成超文本标签树时,所述遍历模块103可以遍历所述超文本标签树找到<div>标签、</div>标签、<ul>标签、<li>标签、<p>标签、</p>标签、<table> 标签、</table>标签、<tr>标签、</tr>标签、<td>标签、</td>标签的页面文本,进而可以定位到包含商品相关信息的页面文本。
所述匹配模块104用于将遍历得到的页面文本中的预设属性值与预设词库中的每一词语进行逐一匹配,以得到与所述预设词库的词语匹配的匹配文本。
在一实施方式中,当遍历得到预设标签的页面文本时,所述匹配模块104可以将遍历得到的页面文本中的预设属性值与预设词库中的每一词语进行逐一匹配,以得到与所述预设词库的词语匹配的匹配文本。所述预设词库的词语可以根据最终需输出的商品结构化摘要的内容进行设定与调整,比如所述预设词库的词语可以包括:Name、 product/commodity、url、price、express、order、comment等。所述预设属性值可以是id属性的属性值、class属性的属性值及name属性的属性值,所述匹配模块104将遍历得到的页面文本中的id属性值、class 属性值、name属性值与所述预设词库中的每一词语进行逐一匹配,以得到与所述预设词库的每一词语匹配的匹配文本。
所述输出模块105用于将匹配得到的匹配文本按照预设顺序进行排序并输出商品结构化摘要。
在一实施方式中,当匹配得到与所述预设词库的词语匹配的匹配文本时,所述输出模块105可以将匹配得到的匹配文本按照预设顺序进行排序,以输出商品结构化摘要。所述预设顺序可以根据实际需求进行设定,比如所述预设词库中的词语包括Name、product/commodity、 url、price,所述预设顺序可以是按照Name、product/commodity、url、 price的顺序进行排序形成最终输出的商品结构化摘要。
举例而言,对某一摄影摄像网站进行解析处理,得到如下的进行商品结构化摘要:
│├─Name:数码相机
││├─product:索尼(SONY)DSC-HX400数码相机
││└─url:http/item.gome.com.cn/9129716796-1118730267.html
││└─price:2149.00
││├─product:卡西欧(CASIO)EX-TR600数码相机金色
││└─url:http/item.gome.com.cn/9134160443-1123100233.html
││└─price:4999.00
│├─Name:单反相机
││├─product:佳能(CANON)7D Mark II单反套机(EF-S 15-85mm f/3.5-5.6)
││└─url:http/item.gome.com.cn/9133381858-1122250027.html
││└─price:11699.00
│├─……
在一实施方式中,跨境网站往往有多种语言,对于匹配得到的匹配文本,可以将匹配文本先翻译成中文再输出。具体地,所述输出模块105还用于判断匹配得到的匹配文本是否为中文文本,若匹配得到的匹配文本不是中文文本,则将所述匹配文本翻译成中文文本再进行排序,若匹配得到的匹配文本是中文文本,则可以直接将匹配得到的匹配文本按照预设顺序进行排序,以输出所述商品结构化摘要。
图4为本发明一实施方式中电商页面的结构化数据提取方法的流程图。根据不同的需求,所述流程图中步骤的顺序可以改变,某些步骤可以省略。
步骤S400,获取电商页面并对所述电商页面进行预处理。
步骤S402,基于预处理后的电商页面生成超文本标签树。
步骤S404,从所述超文本标签树中遍历出预设标签的页面文本。
步骤S406,将遍历得到的页面文本中的预设属性值与预设词库中的每一词语进行逐一匹配,以得到与所述预设词库的词语匹配的匹配文本。
步骤S408,将匹配得到的匹配文本按照预设顺序进行排序并输出商品结构化摘要。
上述电商页面的结构化数据提取装置、方法及计算机可读存储介质,可以将爬取得到的电商页面自动转化为结构化的商品摘要文本,以便于进行数据分析。
对本领域的技术人员来说,可以根据本发明的发明方案和发明构思结合生产的实际需要做出其他相应的改变或调整,而这些改变和调整都应属于本发明所公开的范围。
Claims (9)
1.一种电商页面的结构化数据提取方法,其特征在于,所述方法包括:
获取电商页面并对所述电商页面进行预处理;
基于预处理后的电商页面生成超文本标签树;
从所述超文本标签树中遍历出预设标签的页面文本;
将遍历得到的页面文本中的预设属性值与预设词库中的每一词语进行逐一匹配,以得到与所述预设词库的词语匹配的匹配文本;及
将匹配得到的匹配文本按照预设顺序进行排序并输出商品结构化摘要。
2.如权利要求1所述的方法,其特征在于,所述预处理包括:
去除所述电商页面的导航条、广告条、超链接及网页底部说明;
去除所述电商页面的JavaScript代码;及
去除所述电商页面中的多个指定标签及商品分类信息。
3.如权利要求1所述的方法,其特征在于,所述基于预处理后的电商页面生成超文本标签树的步骤包括:
对预处理后的电商页面的源代码进行解析,以生成所述超文本标签树。
4.如权利要求3所述的方法,其特征在于,所述对预处理后的电商页面的源代码进行解析,以生成所述超文本标签树的步骤包括:
从预处理后的电商页面的源代码解析出多个目标标签;及
利用栈将多个所述目标标签生成所述超文本标签树。
5.如权利要求1所述的方法,其特征在于,所述预设标签包括:<div>标签、</div>标签、<ul>标签、<li>标签、<p>标签、</p>标签、<table>标签、</table>标签、<tr>标签、</tr>标签、<td>标签、</td>标签。
6.如权利要求1所述的方法,其特征在于,所述预设属性值为id属性的属性值、class属性的属性值及name属性的属性值。
7.如权利要求1所述的方法,其特征在于,所述将匹配得到的匹配文本按照预设顺序进行排序并输出商品结构化摘要的步骤之前还包括:
判断匹配得到的匹配文本是否为中文文本;及
若匹配得到的匹配文本不是中文文本,则将所述匹配文本翻译成中文文本。
8.一种电商页面的结构化数据提取装置,所述装置包括处理器及存储器,所述存储器上存储有若干计算机程序,其特征在于,所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-7任一项所述的电商页面的结构化数据提取方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,多条所述指令可被一个或者多个处理器执行,以实现如权利要求1-7任一项所述的电商页面的结构化数据提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911094002.0A CN110874428A (zh) | 2019-11-11 | 2019-11-11 | 电商页面的结构化数据提取装置、方法及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911094002.0A CN110874428A (zh) | 2019-11-11 | 2019-11-11 | 电商页面的结构化数据提取装置、方法及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110874428A true CN110874428A (zh) | 2020-03-10 |
Family
ID=69717974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911094002.0A Pending CN110874428A (zh) | 2019-11-11 | 2019-11-11 | 电商页面的结构化数据提取装置、方法及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110874428A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113407599A (zh) * | 2021-06-30 | 2021-09-17 | 上海万物新生环保科技集团有限公司 | 一种基于文本数据的标准化处理方法及设备 |
WO2022179128A1 (zh) * | 2021-02-25 | 2022-09-01 | 深圳壹账通智能科技有限公司 | 基于爬虫的数据抓取方法、装置、计算机设备及存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049536A (zh) * | 2012-11-01 | 2013-04-17 | 广州汇讯营销咨询有限公司 | 提取网页正文内容的方法和系统 |
CN105786847A (zh) * | 2014-12-22 | 2016-07-20 | 北京奇虎科技有限公司 | 一种电商网站中商品网页的结构化摘要的显示方法和系统 |
WO2017080090A1 (zh) * | 2015-11-14 | 2017-05-18 | 孙燕群 | 一种网页正文提取比对方法 |
CN107391675A (zh) * | 2017-07-21 | 2017-11-24 | 百度在线网络技术(北京)有限公司 | 用于生成结构化信息的方法和装置 |
CN107423391A (zh) * | 2017-07-24 | 2017-12-01 | 福州大学 | 网页结构化数据的信息提取方法 |
CN107577788A (zh) * | 2017-09-15 | 2018-01-12 | 广东技术师范学院 | 一种自动结构化数据的电商网站主题爬虫方法 |
CN107766477A (zh) * | 2017-09-30 | 2018-03-06 | 武汉汉思信息技术有限责任公司 | 页面结构化数据提取方法、终端设备及存储介质 |
CN108090104A (zh) * | 2016-11-23 | 2018-05-29 | 百度在线网络技术(北京)有限公司 | 用于获取网页信息的方法和装置 |
CN108874870A (zh) * | 2018-04-24 | 2018-11-23 | 北京中科闻歌科技股份有限公司 | 一种数据抽取方法、设备及计算机可存储介质 |
CN109492177A (zh) * | 2018-11-02 | 2019-03-19 | 中国搜索信息科技股份有限公司 | 一种基于网页语义结构的网页分块方法 |
-
2019
- 2019-11-11 CN CN201911094002.0A patent/CN110874428A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103049536A (zh) * | 2012-11-01 | 2013-04-17 | 广州汇讯营销咨询有限公司 | 提取网页正文内容的方法和系统 |
CN105786847A (zh) * | 2014-12-22 | 2016-07-20 | 北京奇虎科技有限公司 | 一种电商网站中商品网页的结构化摘要的显示方法和系统 |
WO2017080090A1 (zh) * | 2015-11-14 | 2017-05-18 | 孙燕群 | 一种网页正文提取比对方法 |
CN108090104A (zh) * | 2016-11-23 | 2018-05-29 | 百度在线网络技术(北京)有限公司 | 用于获取网页信息的方法和装置 |
CN107391675A (zh) * | 2017-07-21 | 2017-11-24 | 百度在线网络技术(北京)有限公司 | 用于生成结构化信息的方法和装置 |
CN107423391A (zh) * | 2017-07-24 | 2017-12-01 | 福州大学 | 网页结构化数据的信息提取方法 |
CN107577788A (zh) * | 2017-09-15 | 2018-01-12 | 广东技术师范学院 | 一种自动结构化数据的电商网站主题爬虫方法 |
CN107766477A (zh) * | 2017-09-30 | 2018-03-06 | 武汉汉思信息技术有限责任公司 | 页面结构化数据提取方法、终端设备及存储介质 |
CN108874870A (zh) * | 2018-04-24 | 2018-11-23 | 北京中科闻歌科技股份有限公司 | 一种数据抽取方法、设备及计算机可存储介质 |
CN109492177A (zh) * | 2018-11-02 | 2019-03-19 | 中国搜索信息科技股份有限公司 | 一种基于网页语义结构的网页分块方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022179128A1 (zh) * | 2021-02-25 | 2022-09-01 | 深圳壹账通智能科技有限公司 | 基于爬虫的数据抓取方法、装置、计算机设备及存储介质 |
CN113407599A (zh) * | 2021-06-30 | 2021-09-17 | 上海万物新生环保科技集团有限公司 | 一种基于文本数据的标准化处理方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11397778B2 (en) | Method and device for mining an enterprise relationship | |
US20230206000A1 (en) | Data-driven structure extraction from text documents | |
US8073865B2 (en) | System and method for content extraction from unstructured sources | |
US11727196B2 (en) | System and method for automatic detection of webpage zones of interest | |
US20100185568A1 (en) | Method and System for Document Classification | |
US20060161531A1 (en) | Method and system for information extraction | |
WO2020000717A1 (zh) | 网页分类方法、装置及计算机可读存储介质 | |
US11379536B2 (en) | Classification device, classification method, generation method, classification program, and generation program | |
CN112395418B (zh) | 网页中的目标对象提取方法、装置、电子设备 | |
CN111797356A (zh) | 网页表格信息抽取方法及装置 | |
CN110874428A (zh) | 电商页面的结构化数据提取装置、方法及可读存储介质 | |
CN112818200A (zh) | 基于静态网站的数据爬取及事件分析方法及系统 | |
US20230351789A1 (en) | Systems and methods for deep learning based approach for content extraction | |
CN113918794B (zh) | 企业网络舆情效益分析方法、系统、电子设备及存储介质 | |
US20140365410A1 (en) | Apparatus and method for building and using inference engines based on representations of data that preserve relationships between objects | |
RU2632149C2 (ru) | Система, способ и постоянный машиночитаемый носитель для проверки веб-страниц | |
CN112307314A (zh) | 搜索引擎精选摘要的生成方法和装置 | |
US11625536B2 (en) | System and method for identification and profiling adverse events | |
Jou | Schema extraction for deep web query interfaces using heuristics rules | |
CN109948015B (zh) | 一种元搜索列表结果抽取方法及系统 | |
CN116010707A (zh) | 商品价格异常识别方法、装置、设备和存储介质 | |
US11768888B2 (en) | Attribute extraction | |
CN104063506A (zh) | 重复网页识别方法和装置 | |
CN114218373A (zh) | 一种大容量文本内容检索方法和系统 | |
CN107102994B (zh) | 查询维度信息的确定方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20200310 |