CN114201971A - 一种从网页中提取人物属性的方法及系统 - Google Patents

一种从网页中提取人物属性的方法及系统 Download PDF

Info

Publication number
CN114201971A
CN114201971A CN202111514629.4A CN202111514629A CN114201971A CN 114201971 A CN114201971 A CN 114201971A CN 202111514629 A CN202111514629 A CN 202111514629A CN 114201971 A CN114201971 A CN 114201971A
Authority
CN
China
Prior art keywords
source code
request
webpage
page
paging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111514629.4A
Other languages
English (en)
Other versions
CN114201971B (zh
Inventor
王善和
武博
李秀梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hainan Port And Shipping Holding Co ltd
Original Assignee
Hainan Port And Shipping Holding Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hainan Port And Shipping Holding Co ltd filed Critical Hainan Port And Shipping Holding Co ltd
Priority to CN202111514629.4A priority Critical patent/CN114201971B/zh
Publication of CN114201971A publication Critical patent/CN114201971A/zh
Application granted granted Critical
Publication of CN114201971B publication Critical patent/CN114201971B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种从网页中提取人物属性的方法及系统,其中,提取人物属性的方法包括:源代码获取步骤、网站服务器地址获取步骤、页面节点信息获取步骤和人物属性值获取步骤。本发明使用页面解析算法获取页面节点信息,使用文本文件解析算法提取人物属性,而文本文件解析算法不需要对文本语义进行解析,因此本发明不需要执行复杂的文本语言解析操作,从而能快速定位并获取人物属性;本发明使用的页面解析算法和文本文件解析算法依赖于网页的页面结构和节点标记,而网页的源代码中人物属性的位置与网页的页面结构和节点标记密切相关,因此本发明提取的人物属性的精确度较高。

Description

一种从网页中提取人物属性的方法及系统
技术领域
本发明属于信息挖掘领域,更具体地,涉及一种从网页中提取人物属性的方法及系统。
背景技术
各个网页的源代码中包含大量的人物属性,这些信息对于企业的信息化建设有着重要的意义。但是由于各个网站的网页结构和源代码均不相同,如何从不同的网页结构和源代码中获取人物属性是信息挖掘领域的一大难题。
现有技术通常使用文本分析算法解析网页源代码的语义信息,从而获取人物属性的属性名称和对应的属性值,如识别出“张三”是一个姓名,“29岁”是一个年龄。但是文本分析算法的精确度不高,且计算速度较慢,严重影响了人物属性提取的效率和效果。当前的信息挖掘领域迫切需要一种精确度较高且计算速度较快的从网页中提取人物属性的方法。
为了便于理解本发明,以下对有关术语和相关概念进行解释:
爬虫算法:现有的网络算法中用于抓取网页内容的一类的算法,常用的有Python爬虫算法等;
页面解析算法:现有的网络算法中用于解析网页文本结构的一类的算法,常用的有jsoup页面解析算法;
文本文件解析算法:现有的网络算法中用于获取网页文本内容的一类的算法,该算法不需要对文本语义进行解析。常用的有text算法;
人物属性:人物实体相关的属性,一个人物属性通常用一个属性名称及其对应的属性值来表示,例如:属性名称为姓名;属性值为小明。
发明内容
针对现有技术的缺陷,本发明的目的在于提供一种从网页中提取人物属性的方法及系统,旨在解决提高从网页中提取人物属性的精确度和速度的问题。
为实现上述目的,本发明提供了一种从网页中提取人物属性的方法,其特征在于,包括以下步骤:
(1)源代码获取步骤:
对于包含分页的网页,获取各个分页的源代码;对于不包含分页的网页,获取网页的源代码;所述各个分页的源代码和网页的源代码均包含若干个页面节点信息;
(2)网站服务器地址获取步骤:
通过爬虫算法,从所述各个分页的源代码或网页的源代码中获取网站服务器地址;
(3)页面节点信息获取步骤:
通过页面解析算法,在所述各个分页的源代码或网页的源代码中提取所述网站服务器地址对应的若干个页面节点信息;所述页面节点信息由一个表头及其对应的表头内容组成;
(4)人物属性获取步骤:
通过文本文件解析算法,分别解析所述各个分页的源代码或网页的源代码中每段代码的代码头以及所述若干个页面节点信息,对应得到若干个人物属性的属性名称,以及其对应的属性值。
优选地,所述源代码获取步骤中获取各个分页的源代码的过程为:
在所述包含分页的网页的浏览器上执行抓包操作,分别获取各个分页对应的请求地址和请求方式;
根据所述请求方式,发送请求指令到对应的请求地址,获得各个分页的源代码。
优选地,若所述请求方式为get请求方式,则发送get请求指令到所述请求地址;若所述请求方式为post请求方式,则发送post请求指令到所述请求地址。
优选地,所述各个分页按预先设定的方式进行排序,根据排序的次序,依次发送请求指令到对应的请求地址,获得对应的分页的源代码;
当获取到的分页的源代码中出现“您请求的内容不存在”的短句时,结束;否则继续获取下一个分页的源代码。
本发明提供了一种从网页中提取人物属性的系统,其特征在于,包括以下模块:
源代码获取模块:
用于对包含分页的网页,获取各个分页的源代码;对不包含分页的网页,获取网页的源代码;所述各个分页的源代码和网页的源代码均包含若干个页面节点信息;
网站服务器地址获取模块:
用于通过爬虫算法,从所述各个分页的源代码或网页的源代码中获取网站服务器地址;
页面节点信息获取模块:
用于通过页面解析算法,在所述各个分页的源代码或网页的源代码中提取所述网站服务器地址对应的若干个页面节点信息;所述页面节点信息由一个表头及其对应的表头内容组成;
人物属性获取模块:
用于通过文本文件解析算法,分别解析所述各个分页的源代码或网页的源代码中每段代码的代码头以及所述若干个页面节点信息,对应得到若干个人物属性的属性名称,以及其对应的属性值。
优选地,所述源代码获取模块中获取各个分页的源代码的操作为:
在所述包含分页的网页的浏览器上执行抓包操作,分别获取各个分页对应的请求地址和请求方式;
根据所述请求方式,发送请求指令到对应的请求地址,获得各个分页的源代码。
优选地,若所述请求方式为get请求方式,则发送get请求指令到所述请求地址;若所述请求方式为post请求方式,则发送post请求指令到所述请求地址。
优选地,所述各个分页按预先设定的方式进行排序,根据排序的次序,依次发送请求指令到对应的请求地址,获得对应的分页的源代码;
当获取到的分页的源代码中出现“您请求的内容不存在”的短句时,结束;否则继续获取下一个分页的源代码。
本发明提供了一种从网页中提取人物属性的装置,其特征在于,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现如上所述的从网页中提取人物属性的方法。
本发明提供了一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的从网页中提取人物属性的方法。
通过本发明所构思的以上技术方案,与现有技术相比,由于本发明使用页面解析算法获取页面节点信息,使用文本文件解析算法提取人物属性,而文本文件解析算法不需要对文本语义进行解析,因此本发明不需要执行复杂的文本语言解析操作,从而能快速定位并获取人物属性;本发明使用的页面解析算法和文本文件解析算法依赖于网页的页面结构和节点标记,而网页的源代码中人物属性的位置与网页的页面结构和节点标记密切相关,因此本发明提取的人物属性的精确度较高。
本发明对于有分页的网页,设计了获取各个分页的源代码的方法,确保从有分页的网页中也能提取到人物属性。
附图说明
图1是本发明实施例提供的从网页中提取人物属性的方法的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本实施例提供了一种从网页中提取人物属性的方法,包括以下步骤:
(1)源代码获取步骤:
对于包含分页的网页,获取各个分页的源代码;对于不包含分页的网页,获取网页的源代码;各个分页的源代码和网页的源代码均包含若干个页面节点信息;
其中,获取各个分页的源代码的过程为:
在包含分页的网页的浏览器上执行抓包操作,分别获取各个分页对应的请求地址和请求方式;
根据请求方式,发送请求指令到对应的请求地址,获得各个分页的源代码;若请求方式为get请求方式,则发送get请求指令到请求地址;若请求方式为post请求方式,则发送post请求指令到请求地址。
此外,各个分页可按预先设定的方式进行排序,根据排序的次序,依次发送请求指令到对应的请求地址,获得对应的分页的源代码;当获取到的分页的源代码中出现“您请求的内容不存在”的短句时,结束;否则继续获取下一个分页的源代码;
本实施例对于有分页的网页,设计了获取各个分页的源代码的方法,确保从有分页的网页中也能提取到人物属性。
(2)网站服务器地址获取步骤:
通过爬虫算法,从各个分页的源代码或网页的源代码中获取网站服务器地址;其中,爬虫算法为Python爬虫算法;
(3)页面节点信息获取步骤:
通过页面解析算法,在各个分页的源代码或网页的源代码中提取网站服务器地址对应的若干个页面节点信息;页面节点信息由一个表头及其对应的表头内容组成;其中,页面解析算法为jsoup页面解析算法;
(4)人物属性获取步骤:
通过文本文件解析算法,分别解析各个分页的源代码或网页的源代码中每段代码的代码头以及若干个页面节点信息,对应得到若干个人物属性的属性名称,以及其对应的属性值。其中,文本文件解析算法为text算法。
由于本实施例使用页面解析算法获取页面节点信息,使用文本文件解析算法提取人物属性,而文本文件解析算法不需要对文本语义进行解析,因此本实施例不需要执行复杂的文本语言解析操作,从而能快速定位并获取人物属性;本实施例使用的页面解析算法和文本文件解析算法依赖于网页的页面结构和节点标记,而网页的源代码中人物属性的位置与网页的页面结构和节点标记密切相关,因此本实施例提取的人物属性的精确度较高。
本实施例提供一种从网页中提取人物属性的系统包括以下模块:
源代码获取模块:
用于对包含分页的网页,获取各个分页的源代码;对不包含分页的网页,获取网页的源代码;各个分页的源代码和网页的源代码均包含若干个页面节点信息;
其中,获取各个分页的源代码的操作为:
在包含分页的网页的浏览器上执行抓包操作,分别获取各个分页对应的请求地址和请求方式;
根据请求方式,发送请求指令到对应的请求地址,获得各个分页的源代码;若请求方式为get请求方式,则发送get请求指令到请求地址;若请求方式为post请求方式,则发送post请求指令到请求地址。
各个分页可按预先设定的方式进行排序,根据排序的次序,依次发送请求指令到对应的请求地址,获得对应的分页的源代码;当获取到的分页的源代码中出现“您请求的内容不存在”的短句时,结束;否则继续获取下一个分页的源代码。
网站服务器地址获取模块:
用于通过爬虫算法,从各个分页的源代码或网页的源代码中获取网站服务器地址;
页面节点信息获取模块:
用于通过页面解析算法,在各个分页的源代码或网页的源代码中提取网站服务器地址对应的若干个页面节点信息;页面节点信息由一个表头及其对应的表头内容组成;
人物属性获取模块:
用于通过文本文件解析算法,分别解析各个分页的源代码或网页的源代码中每段代码的代码头以及若干个页面节点信息,对应得到若干个人物属性的属性名称,以及其对应的属性值。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种从网页中提取人物属性的方法,其特征在于,包括以下步骤:
(1)源代码获取步骤:
对于包含分页的网页,获取各个分页的源代码;对于不包含分页的网页,获取网页的源代码;所述各个分页的源代码和网页的源代码均包含若干个页面节点信息;
(2)网站服务器地址获取步骤:
通过爬虫算法,从所述各个分页的源代码或网页的源代码中获取网站服务器地址;
(3)页面节点信息获取步骤:
通过页面解析算法,在所述各个分页的源代码或网页的源代码中提取所述网站服务器地址对应的若干个页面节点信息;所述页面节点信息由一个表头及其对应的表头内容组成;
(4)人物属性获取步骤:
通过文本文件解析算法,分别解析所述各个分页的源代码或网页的源代码中每段代码的代码头以及所述若干个页面节点信息,对应得到若干个人物属性的属性名称,以及其对应的属性值。
2.如权利要求1所述的从网页中提取人物属性方法,其特征在于,所述源代码获取步骤中获取各个分页的源代码的过程为:
在所述包含分页的网页的浏览器上执行抓包操作,分别获取各个分页对应的请求地址和请求方式;
根据所述请求方式,发送请求指令到对应的请求地址,获得各个分页的源代码。
3.如权利要求2所述的从网页中提取人物属性方法,其特征在于,若所述请求方式为get请求方式,则发送get请求指令到所述请求地址;若所述请求方式为post请求方式,则发送post请求指令到所述请求地址。
4.如权利要求2所述的从网页中提取人物属性方法,其特征在于,
所述各个分页按预先设定的方式进行排序,根据排序的次序,依次发送请求指令到对应的请求地址,获得对应的分页的源代码;
当获取到的分页的源代码中出现“您请求的内容不存在”的短句时,结束;否则继续获取下一个分页的源代码。
5.一种从网页中提取人物属性的系统,其特征在于,包括以下模块:
源代码获取模块:
用于对包含分页的网页,获取各个分页的源代码;对不包含分页的网页,获取网页的源代码;所述各个分页的源代码和网页的源代码均包含若干个页面节点信息;
网站服务器地址获取模块:
用于通过爬虫算法,从所述各个分页的源代码或网页的源代码中获取网站服务器地址;
页面节点信息获取模块:
用于通过页面解析算法,在所述各个分页的源代码或网页的源代码中提取所述网站服务器地址对应的若干个页面节点信息;所述页面节点信息由一个表头及其对应的表头内容组成;
人物属性获取模块:
用于通过文本文件解析算法,分别解析所述各个分页的源代码或网页的源代码中每段代码的代码头以及所述若干个页面节点信息,对应得到若干个人物属性的属性名称,以及其对应的属性值。
6.如权利要求5所述的从网页中提取人物属性系统,其特征在于,所述源代码获取模块中获取各个分页的源代码的操作为:
在所述包含分页的网页的浏览器上执行抓包操作,分别获取各个分页对应的请求地址和请求方式;
根据所述请求方式,发送请求指令到对应的请求地址,获得各个分页的源代码。
7.如权利要求6所述的从网页中提取人物属性系统,其特征在于,若所述请求方式为get请求方式,则发送get请求指令到所述请求地址;若所述请求方式为post请求方式,则发送post请求指令到所述请求地址。
8.如权利要求6所述的从网页中提取人物属性系统,其特征在于,
所述各个分页按预先设定的方式进行排序,根据排序的次序,依次发送请求指令到对应的请求地址,获得对应的分页的源代码;
当获取到的分页的源代码中出现“您请求的内容不存在”的短句时,结束;否则继续获取下一个分页的源代码。
9.一种从网页中提取人物属性的装置,其特征在于,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现如权利要求1-4任一项所述的从网页中提取人物属性的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1-4任一项所述的从网页中提取人物属性的方法。
CN202111514629.4A 2021-12-13 2021-12-13 一种从网页中提取人物属性的方法及系统 Active CN114201971B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111514629.4A CN114201971B (zh) 2021-12-13 2021-12-13 一种从网页中提取人物属性的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111514629.4A CN114201971B (zh) 2021-12-13 2021-12-13 一种从网页中提取人物属性的方法及系统

Publications (2)

Publication Number Publication Date
CN114201971A true CN114201971A (zh) 2022-03-18
CN114201971B CN114201971B (zh) 2023-06-13

Family

ID=80652699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111514629.4A Active CN114201971B (zh) 2021-12-13 2021-12-13 一种从网页中提取人物属性的方法及系统

Country Status (1)

Country Link
CN (1) CN114201971B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101094135A (zh) * 2006-06-23 2007-12-26 腾讯科技(深圳)有限公司 一种互联网内容信息的提取方法和提取系统
CN107590219A (zh) * 2017-09-04 2018-01-16 电子科技大学 网页人物主题相关信息提取方法
CN107943838A (zh) * 2017-10-30 2018-04-20 北京大数元科技发展有限公司 一种自动获取xpath生成爬虫脚本的方法及系统
CN108090104A (zh) * 2016-11-23 2018-05-29 百度在线网络技术(北京)有限公司 用于获取网页信息的方法和装置
CN108182496A (zh) * 2018-01-02 2018-06-19 华南理工大学 一种城市互联网开放数据获取处理分析方法
JP2020098596A (ja) * 2018-12-18 2020-06-25 富士通株式会社 ウェブページから情報を抽出する方法、装置及び記憶媒体
CN113569181A (zh) * 2021-07-29 2021-10-29 山东亿云信息技术有限公司 一种分页数据采集方法及系统
US20210365503A1 (en) * 2017-02-28 2021-11-25 Palo Alto Networks, Inc. Focused url recrawl

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101094135A (zh) * 2006-06-23 2007-12-26 腾讯科技(深圳)有限公司 一种互联网内容信息的提取方法和提取系统
CN108090104A (zh) * 2016-11-23 2018-05-29 百度在线网络技术(北京)有限公司 用于获取网页信息的方法和装置
US20210365503A1 (en) * 2017-02-28 2021-11-25 Palo Alto Networks, Inc. Focused url recrawl
CN107590219A (zh) * 2017-09-04 2018-01-16 电子科技大学 网页人物主题相关信息提取方法
CN107943838A (zh) * 2017-10-30 2018-04-20 北京大数元科技发展有限公司 一种自动获取xpath生成爬虫脚本的方法及系统
CN108182496A (zh) * 2018-01-02 2018-06-19 华南理工大学 一种城市互联网开放数据获取处理分析方法
JP2020098596A (ja) * 2018-12-18 2020-06-25 富士通株式会社 ウェブページから情報を抽出する方法、装置及び記憶媒体
CN113569181A (zh) * 2021-07-29 2021-10-29 山东亿云信息技术有限公司 一种分页数据采集方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
韩前进: "Web在线爬虫的设计与实现", vol. 39, no. 9, pages 86 - 72 *
高会娟: "产品属性挖掘及应用", no. 8, pages 139 - 322 *
黎妍 等: "引入Scrapy框架的Python网络爬虫应用研究", vol. 37, no. 10, pages 58 - 60 *

Also Published As

Publication number Publication date
CN114201971B (zh) 2023-06-13

Similar Documents

Publication Publication Date Title
CN108932294B (zh) 基于索引的简历数据处理方法、装置、设备及存储介质
CN109766525A (zh) 一种数据驱动的敏感信息泄露检测框架
CN102253937A (zh) 获取网页中的感兴趣信息的方法及相关装置
CN108399150A (zh) 文本处理方法、装置、计算机设备和存储介质
CN109165373B (zh) 一种数据处理方法及装置
CN110377796B (zh) 基于dom树的正文抽取方法、装置、设备及存储介质
CN112612761B (zh) 一种数据清洗方法、装置、设备及存储介质
CN109271598B (zh) 一种抽取新闻网页内容的方法、装置及存储介质
CN114238575A (zh) 文档解析方法、系统、计算机设备及计算机可读存储介质
CN114443928B (zh) 一种网络文本数据爬虫方法与系统
CN110390037B (zh) 基于dom树的信息分类方法、装置、设备及存储介质
KR20090130364A (ko) 웹 페이지에 포함되는 이미지에 대하여 태깅을 수행하고 그 결과를 이용하여 웹 검색 서비스를 제공하기 위한 방법, 장치 및 컴퓨터 판독 가능한 기록 매체
CN115270723A (zh) Pdf文档拆分方法、装置、设备及存储介质
US9208134B2 (en) Methods and systems for tokenizing multilingual textual documents
CN103646117A (zh) 一种基于链接的双语平行网页识别方法及系统
CN108694192B (zh) 网页类型的判断方法及装置
CN106326314B (zh) 网页信息抽取方法及装置
CN116126997B (zh) 一种文献去重存储方法、系统、设备及存储介质
CN112990091A (zh) 基于目标检测的研报解析方法、装置、设备和存储介质
CN103118028B (zh) 基于网页解析的安全扫描方法及系统
CN111581478A (zh) 一种特定主体的跨网站通用新闻采集方法
CN114201971A (zh) 一种从网页中提取人物属性的方法及系统
CN116881595A (zh) 一种可自定义的网页数据爬取方法
KR100940365B1 (ko) 웹 페이지에 포함되는 이미지에 대하여 태깅을 수행하고 그결과를 이용하여 웹 검색 서비스를 제공하기 위한 방법,장치 및 컴퓨터 판독 가능한 기록 매체
CN115408419A (zh) 一种数据抽取方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant