CN110427541A - 一种网页内容提取方法、系统、电子设备及介质 - Google Patents
一种网页内容提取方法、系统、电子设备及介质 Download PDFInfo
- Publication number
- CN110427541A CN110427541A CN201910717220.9A CN201910717220A CN110427541A CN 110427541 A CN110427541 A CN 110427541A CN 201910717220 A CN201910717220 A CN 201910717220A CN 110427541 A CN110427541 A CN 110427541A
- Authority
- CN
- China
- Prior art keywords
- extracted
- html
- feature
- content
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/972—Access to data in other repository systems, e.g. legacy data or dynamic Web page generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供了一种网页内容提取方法,包括以下步骤:S1:针对待提取网页所属网站的代码规则确定HTML代码中与提取内容相关的第一特征、第二特征和第三特征S2:定义索引关键词;S3:提取完整的HTML页面;S4:确定索引关键词的父级范围;S5:将匹配关键词与输入的索引关键词进行比对,计算匹配概率;S6:输出匹配概率最大的匹配关键词对应的待提取内容。本发明提供的网页内容提取方法和系统的优点在于:通过前期对网站规则的解读确定相应特征进行后期的检索和提取,提高了在不同网站进行提取的适用性,通过匹配概率选择匹配度最高的关键词,提高了准确性,便于后期的数据处理,降低数据清洗难度。
Description
技术领域
本发明涉及信息检索与提取技术领域,尤其涉及一种网页内容提取方法系统、电子设备及介质。
背景技术
现如今,互联网技术高速发展,互联网上的数据呈爆炸式增长。网页信息抽取(网络爬虫)旨在从互联网上参差不齐的数据中爬取所需的有用数据以供研究或使用。
大部分网站的数据内容都比较规整,可以通过分析网页中的内容,确定所需要提取内容在DOM树中的相对位置,从而提取相关的数据,但是当内容比较繁多,网站后台可以自定义数据格式的时候,网页中的信息格式并不都是统一的,会出现很多界面内容错乱,因此目前的提取技术对于解决不规整网页时会出现一定的困难,不能有效的将非结构化的数据变成结构化的数据。比如一些论文网站,里面的关键词Subjects,会有多种形式,如sbujects,subject等各种各样形式,而且相关的位置可能会在最上方或者最下方,对于常规的提取方法,里面的内容以及位置不固定,给数据提取以及提取之后的数据清洗带来了很大的困扰。
发明内容
本发明所要解决的技术问题在于针对不同的网页编码规则和字段定义规则提供一种能够适应不同规则的信息提取的方法和系统。
本发明是通过以下技术方案解决上述技术问题的:
一种网页内容提取方法,包括以下步骤:
S1:针对待提取网页所属网站的代码规则确定HTML代码中与待提取内容所在父级范围对应的第一特征、对HTML代码进行分行的第二特征、以及将每行HTML代码分成包括第一部分和第二部分的第三特征;每行HTML代码对应于父级范围内的一个子范围,所述第一部分对应于网页内容中的匹配关键词,所述第二部分对应于网页内容中的待提取内容;
S2:定义索引关键词;
S3:提取待提取网页的HTML标签树判断HTML代码是否完整,如果完整,则生成完整的HTML页面,如果不完整,则将不完整的标签进行补齐并生成完整的HTML页面;
S4:基于第一特征对网页内容进行定位,确定索引关键词的父级范围;
S5:基于第二特征和第三特征提取每一行HTML代码第一部分对应的匹配关键词与输入的索引关键词进行比对,计算匹配概率;
S6:输出匹配概率最大的匹配关键词对应的待提取内容。
优选地,步骤S3中针对加载完的HTML页面,确定页面中是否存在待解析的js脚本,如果页面中没有js脚本,则直接生成完整的HTML页面;如果存在js脚本,对js脚本渲染后生成完整的HTML页面。
优选地,步骤S3中通过splash技术对js脚本进行动态渲染。
优选地,步骤S4中基于第一特征使用xpath算法对待提取内容的父级范围进行定位。
优选地,步骤S4中计算匹配概率的方法为:
将匹配关键词存储为一阶矩阵X=[xM],索引关键词存储为一阶矩阵Y=[yN],集合中的每个元素代表一个字母;引入二维矩阵C[M,N],令
其中,i∈[0,M],j∈[0,N];
则匹配概率为C[M,N]/N。
本发明还提供了一种网页内容提取系统,包括
特征提取模块:针对待提取网页所属网站的代码规则确定HTML代码中与待提取内容所在父级范围对应的第一特征、对HTML代码进行分行的第二特征、以及将每行HTML代码分成包括第一部分和第二部分的第三特征;每行HTML代码对应于父级范围内的一个子范围,所述第一部分对应于网页内容中的匹配关键词,所述第二部分对应于网页内容中的待提取内容;
关键词定义模块:定义索引关键词;
代码提取模块:提取待网页的HTML标签树判断HTML代码是否完整,如果完整,则生成完整的HTML页面,如果不完整,则将不完整的标签进行补齐并生成完整的HTML页面;
父级定位模块:基于第一特征对网页内容进行定位,确定索引关键词的父级范围;
匹配计算模块:基于第二特征和第三特征提取每一行HTML代码第一部分对应的匹配关键词与输入的索引关键词进行比对,计算匹配概率;
内容提取模块:提取匹配概率最大的匹配关键词对应的待提取内容。
本发明还提供了一种电子处理设备,包括至少一个处理器和存储有至少一个执行程序的存储装置,当所述至少一个执行程序被所述至少一个处理器执行,所述至少一个处理器实现所述的方法。
本发明还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时能够实现所述的方法。
本发明提供的网页内容提取方法和系统的优点在于:通过前期对网站规则的解读确定相应特征进行后期的检索和提取,提高了在不同网站进行提取的适用性,通过匹配概率选择匹配度最高的关键词,提高了准确性,便于后期的数据处理,降低数据清洗难度。
附图说明
图1为本发明的实施例所提供的网页内容提取方法的流程图;
图2为本发明的实施例所提供的网页HTML页面示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
如图1所示,本实施例提供了一种网页内容提取方法,包括
S1:针对待提取网页所属网站的代码规则确定HTML代码中与待提取内容所在父级范围对应的第一特征、对HTML代码进行分行的第二特征、以及将每行HTML代码分成包括第一部分和第二部分的第三特征;每行HTML代码对应于父级范围内的一个子范围,所述第一部分对应于网页内容中的匹配关键词,所述第二部分对应于网页内容中的待提取内容;
参考图2,本实施例以英文文献网站arXiv.org为例进行说明,其访问地址为:https://arxiv.org,本实施例希望提取的内容为文献所属的学科,即网页中“Subjects”后面对应的内容;对其HTML代码进行分析,框4中出现了表示科目的关键词subjects,其所属的父级范围的div class参考框1,确定为metastable,即第一特征为metastable,结合框2和框3可以确定其第二特征为tr,结合框4和框5可以确定其第三特征为td。父级范围被第二特征tr分为四个子范围,子范围被第三特征td分为第一部分和第二部分,所述第一部分对应于网页内容中的匹配关键词subjects,所述第二部分对应于网页内种中的待提取内容Astrophysics of Galaxies(Astro-ph.GA)。
S2:定义索引关键词;由于不同的网站对学科使用的关键词不完全相同,本实施例选用subject作为索引关键词,如果需要提取其他信息可自行定义使用索引关键词。
S3:提取待提取网页的HTML标签树判断HTML代码是否完整,如果完整,则生成完整的HTML页面,如果不完整,则将不完整的标签进行补齐并生成完整的HTML页面;
判断HTML页面是否完整的具体方法为检测页面中是否存在未解析的js脚本,如果页面中没有js脚本,直接生成完整的HTML页面,如果存在js脚本,对js脚本渲染后生成完整的HTML页面。本实施例以现有技术中的splash渲染引擎对js脚本进行动态渲染。
S4:基于第一特征对网页内容进行定位,确定索引关键词的父级范围;本实施例以现有技术中的使用xpath算法输入所述第一特征进行父级定位。
S5:基于第二特征和第三特征提取每一行HTML代码第一部分对应的匹配关键词与输入的索引关键词进行比对,计算匹配概率;
将匹配关键词存储为一阶矩阵X=[xM],索引关键词存储为一阶矩阵Y=[yN],集合中的每个元素代表一个字母;引入二维矩阵C[M,N],令
其中,i∈[0,M],j∈[0,N];
则匹配概率为C[M,N]/N。
下面以匹配关键词为sbujects为例进行说明上述计算方法,索引关键词依然为subject,此时矩阵X=[s,b,u,j,e,c,t,s],矩阵Y=[s,u,b,j,e,c,t],M=8,N=7;
利用公式(1)计算矩阵C[8,7]的数值得到下表;
表1:二维矩阵数据
对于矩阵Cij,实际上不存在i=0或j=0,本申请为了计算方便添加了这一内容,根据公式(1)可知Ci0和C0j均填充为0。
i=1时,由于x1=y1,故C11=C00+1=1,由于x1≠y2,则C12=max(C02,C11)=1,经过分析可知当xi≠yj时,填充结果为其前方和上方数值中较大的结果,由此可确定第一行其他位置均为1。
i=2时,由于x2=y3,则C23=C12+1=2,其余位置均不相等,故C21=max(C11,C20)=1,C22=max(C21,C12)=1,其余位置均填充2。
i=3时,由于x3=y2,则C32=C21+1=2,其余位置均不相等,故C31=max(C21,C30)=1,其余位置均填充2。
i=4时,由于x4=y4,则C44=C33+1=3,其余位置均不相等,故得到C41=1,C42=2,C43=2,C45=max(C35,C44)=2,其余位置均为3.
i=5时,由于x5=y5,则C55=C44+1=4,其余位置均不相等,C55之前的元素数值与各自上方的数值相同,C55之后的数值与C55相同,均为4。
由于x6=y6,x7=y7,可知C66=5,C77=6,其余位置不再详述。
当i=8时,由于x8=y1,则C81=C70+1=1,其余位置均与同列上一行数值相同,不再赘述。
最终得到C[8,7]=6,则匹配关键词sbujects的匹配概率为6/7。
S6:输出匹配概率最大的匹配关键词对应的待提取内容;具体为将匹配度最高的匹配关键词对应的HTML代码所在的子范围内的第二部分HTML代码对应的网页内容提取出来。
在上述实施例中,仅给出了基于HTML代码进行范围划分和提取的起始特征,而没有给出系统识别的终止特征,对于本领域技术人员来说,应该知晓父级范围为HTML代码中符合第一特征的div class到与其对应的/div符号处,子范围以tr起始,并以紧随其后的/tr认为是该子范围的终点特征,第一部分和第二部分均已td起始,以/td作为终点特征。当然,本领域技术人员也可以用下一个同级别的命令符作为终止特征。
本实施例对步骤做出的编号仅用于区分各步骤,不用于限定各步骤的顺序。
本申请还提供了一种网页内容提取系统,包括
特征提取模块:针对待提取网页所属网站的代码规则确定HTML代码中与待提取内容所在父级范围对应的第一特征、对HTML代码进行分行的第二特征、以及将每行HTML代码分成包括第一部分和第二部分的第三特征;每行HTML代码对应于父级范围内的一个子范围,所述第一部分对应于网页内容中的匹配关键词,所述第二部分对应于网页内容中的待提取内容;
关键词定义模块:定义索引关键词;
代码提取模块:提取待网页的HTML标签树判断HTML代码是否完整,如果完整,则生成完整的HTML页面,如果不完整,则将不完整的标签进行补齐并生成完整的HTML页面;
父级定位模块:基于第一特征对网页内容进行定位,确定索引关键词的父级范围;
匹配计算模块:基于第二特征和第三特征提取每一行HTML代码第一部分对应的匹配关键词与输入的索引关键词进行比对,计算匹配概率;
内容提取模块:提取匹配概率最大的匹配关键词对应的待提取内容。
本申请还提供了一种电子处理设备,包括至少一个处理器和存储有至少一个执行程序的存储装置,当所述至少一个执行程序被所述至少一个处理器执行,使得所述至少一个处理器实现以下方法:
S1:针对待提取网页所属网站的代码规则确定HTML代码中与待提取内容所在父级范围对应的第一特征、对HTML代码进行分行的第二特征、以及将每行HTML代码分成包括第一部分和第二部分的第三特征;每行HTML代码对应于父级范围内的一个子范围,所述第一部分对应于网页内容中的匹配关键词,所述第二部分对应于网页内容中的待提取内容;
S2:定义索引关键词;
S3:提取待提取网页的HTML标签树判断HTML代码是否完整,如果完整,则生成完整的HTML页面,如果不完整,则将不完整的标签进行补齐并生成完整的HTML页面;
S4:基于第一特征对网页内容进行定位,确定索引关键词的父级范围;
S5:基于第二特征和第三特征提取每一行HTML代码第一部分对应的匹配关键词与输入的索引关键词进行比对,计算匹配概率;
S6:输出匹配概率最大的匹配关键词对应的待提取内容。
本申请还提供了了一种计算机可读存储介质,内存储有计算机程序,当所述算计程序被处理器执行时,能够实现以下方法:
S1:针对待提取网页所属网站的代码规则确定HTML代码中与待提取内容所在父级范围对应的第一特征、对HTML代码进行分行的第二特征、以及将每行HTML代码分成包括第一部分和第二部分的第三特征;每行HTML代码对应于父级范围内的一个子范围,所述第一部分对应于网页内容中的匹配关键词,所述第二部分对应于网页内容中的待提取内容;
S2:定义索引关键词;
S3:提取待提取网页的HTML标签树判断HTML代码是否完整,如果完整,则生成完整的HTML页面,如果不完整,则将不完整的标签进行补齐并生成完整的HTML页面;
S4:基于第一特征对网页内容进行定位,确定索引关键词的父级范围;
S5:基于第二特征和第三特征提取每一行HTML代码第一部分对应的匹配关键词与输入的索引关键词进行比对,计算匹配概率;
S6:输出匹配概率最大的匹配关键词对应的待提取内容。
Claims (8)
1.一种网页内容提取方法,其特征在于:包括以下步骤:
S1:针对待提取网页所属网站的代码规则确定HTML代码中与待提取内容所在父级范围对应的第一特征、对HTML代码进行分行的第二特征、以及将每行HTML代码分成包括第一部分和第二部分的第三特征;每行HTML代码对应于父级范围内的一个子范围,所述第一部分对应于网页内容中的匹配关键词,所述第二部分对应于网页内容中的待提取内容;
S2:定义索引关键词;
S3:提取待提取网页的HTML标签树判断HTML代码是否完整,如果完整,则生成完整的HTML页面,如果不完整,则将不完整的标签进行补齐并生成完整的HTML页面;
S4:基于第一特征对网页内容进行定位,确定索引关键词的父级范围;
S5:基于第二特征和第三特征提取每一行HTML代码第一部分对应的匹配关键词与输入的索引关键词进行比对,计算匹配概率;
S6:输出匹配概率最大的匹配关键词对应的待提取内容。
2.根据权利要求1所述的一种网页内容提取方法,其特征在于:步骤S3中针对加载完的HTML页面,确定页面中是否存在待解析的js脚本,如果页面中没有js脚本,则直接生成完整的HTML页面;如果存在js脚本,对js脚本渲染后生成完整的HTML页面。
3.根据权利要求2所述的一种网页内容提取方法,其特征在于:步骤S3中通过splash技术对js脚本进行动态渲染。
4.根据权利要求1所述的一种网页内容提取方法,其特征在于:步骤S4中基于第一特征使用xpath算法对待提取内容的父级范围进行定位。
5.根据权利要求1所述的一种网页内容提取方法,其特征在于:步骤S4中计算匹配概率的方法为:
将匹配关键词存储为一阶矩阵X=[xM],索引关键词存储为一阶矩阵Y=[yN],集合中的每个元素代表一个字母;引入二维矩阵C[M,N],令
其中,i∈[0,M],j∈[0,N];
则匹配概率为C[M,N]/N。
6.一种网页内容提取系统,其特征在于:包括
特征提取模块:针对待提取网页所属网站的代码规则确定HTML代码中与待提取内容所在父级范围对应的第一特征、对HTML代码进行分行的第二特征、以及将每行HTML代码分成包括第一部分和第二部分的第三特征;每行HTML代码对应于父级范围内的一个子范围,所述第一部分对应于网页内容中的匹配关键词,所述第二部分对应于网页内容中的待提取内容;
关键词定义模块:定义索引关键词;
代码提取模块:提取待网页的HTML标签树判断HTML代码是否完整,如果完整,则生成完整的HTML页面,如果不完整,则将不完整的标签进行补齐并生成完整的HTML页面;
父级定位模块:基于第一特征对网页内容进行定位,确定索引关键词的父级范围;
匹配计算模块:基于第二特征和第三特征提取每一行HTML代码第一部分对应的匹配关键词与输入的索引关键词进行比对,计算匹配概率;
内容提取模块:提取匹配概率最大的匹配关键词对应的待提取内容。
7.一种电子处理设备,其特征在于:包括至少一个处理器和存储有至少一个执行程序的存储装置,当所述至少一个执行程序被所述至少一个处理器执行,所述至少一个处理器实现如权利要求1-6任一项所述的方法。
8.一种计算机可读存储介质,存储有计算机程序,其特征在于:所述计算机程序被处理器执行时能够实现如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910717220.9A CN110427541B (zh) | 2019-08-05 | 2019-08-05 | 一种网页内容提取方法、系统、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910717220.9A CN110427541B (zh) | 2019-08-05 | 2019-08-05 | 一种网页内容提取方法、系统、电子设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110427541A true CN110427541A (zh) | 2019-11-08 |
CN110427541B CN110427541B (zh) | 2022-09-16 |
Family
ID=68412592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910717220.9A Active CN110427541B (zh) | 2019-08-05 | 2019-08-05 | 一种网页内容提取方法、系统、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110427541B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304457A (zh) * | 2023-02-27 | 2023-06-23 | 山东乾舜广告传媒有限公司 | 一种网页多重信息属性的标记方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101645082A (zh) * | 2009-04-17 | 2010-02-10 | 华中科技大学 | 基于并行编程模式的相似网页去重系统 |
CN101676898A (zh) * | 2008-09-17 | 2010-03-24 | 中国科学院自动化研究所 | 一种借助网络知识辅助的汉英机构名翻译方法及装置 |
CN102750390A (zh) * | 2012-07-05 | 2012-10-24 | 翁时锋 | 新闻网页要素自动提取方法 |
US20140201185A1 (en) * | 2013-01-17 | 2014-07-17 | Adobe Systems Incorporated | Hybrid method of building topic ontologies for publisher and marketer content and ad recommendations |
CN107229668A (zh) * | 2017-03-07 | 2017-10-03 | 桂林电子科技大学 | 一种基于关键词匹配的正文抽取方法 |
-
2019
- 2019-08-05 CN CN201910717220.9A patent/CN110427541B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101676898A (zh) * | 2008-09-17 | 2010-03-24 | 中国科学院自动化研究所 | 一种借助网络知识辅助的汉英机构名翻译方法及装置 |
CN101645082A (zh) * | 2009-04-17 | 2010-02-10 | 华中科技大学 | 基于并行编程模式的相似网页去重系统 |
CN102750390A (zh) * | 2012-07-05 | 2012-10-24 | 翁时锋 | 新闻网页要素自动提取方法 |
US20140201185A1 (en) * | 2013-01-17 | 2014-07-17 | Adobe Systems Incorporated | Hybrid method of building topic ontologies for publisher and marketer content and ad recommendations |
CN107229668A (zh) * | 2017-03-07 | 2017-10-03 | 桂林电子科技大学 | 一种基于关键词匹配的正文抽取方法 |
Non-Patent Citations (2)
Title |
---|
CHONGJUN WANG;PENG WEI: "A novel web page text information extraction method", 《IEEE》 * |
王健: "基于Hadoop的Web页面正文抽取技术的研究", 《中国优秀硕士学位论文全文数据库》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304457A (zh) * | 2023-02-27 | 2023-06-23 | 山东乾舜广告传媒有限公司 | 一种网页多重信息属性的标记方法 |
CN116304457B (zh) * | 2023-02-27 | 2024-03-29 | 山东乾舜广告传媒有限公司 | 一种网页多重信息属性的标记方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110427541B (zh) | 2022-09-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115203380A (zh) | 基于多模态数据融合的文本处理系统及其方法 | |
CN107145481B (zh) | 电子设备、存储介质、网页表单填充方法及装置 | |
CN105205080B (zh) | 冗余文件清理方法、装置和系统 | |
CN110738049B (zh) | 相似文本的处理方法、装置及计算机可读存储介质 | |
US9514113B1 (en) | Methods for automatic footnote generation | |
CN106709032A (zh) | 抽取电子表格文档中结构化信息的方法及装置 | |
CN106599940A (zh) | 图片文字的识别方法及装置 | |
CN109657208B (zh) | 网页相似度计算方法、装置、设备、计算机可读存储介质 | |
CN110222251B (zh) | 一种基于网页分割和搜索算法的服务包装方法 | |
WO2011141333A2 (en) | Displaying items in an application window | |
CN106599001A (zh) | 网页内容获取方法和系统 | |
CN109933502B (zh) | 电子装置、用户操作记录的处理方法和存储介质 | |
CN116257406A (zh) | 用于智慧城市的网关数据管理方法及其系统 | |
CN109190062B (zh) | 目标语料数据的爬取方法、装置及存储介质 | |
CN106777143A (zh) | 一种新闻聚合方法及新闻聚合服务器 | |
CN106446123A (zh) | 一种网页中验证码元素识别方法 | |
CN113918794B (zh) | 企业网络舆情效益分析方法、系统、电子设备及存储介质 | |
CN114398138A (zh) | 界面生成方法、装置、计算机设备和存储介质 | |
CN110427541A (zh) | 一种网页内容提取方法、系统、电子设备及介质 | |
WO2013063734A1 (en) | Determining document structure similarity using discrete wavelet transformation | |
US10963690B2 (en) | Method for identifying main picture in web page | |
CN104778232A (zh) | 一种基于长查询的搜索结果的优化方法和装置 | |
CN106897287B (zh) | 网页发布时间抽取方法和用于网页发布时间抽取的装置 | |
CN108595453B (zh) | Url标识映射获取方法及装置 | |
CN114329138A (zh) | 网页信息抽取方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |