CN110427541B - 一种网页内容提取方法、系统、电子设备及介质 - Google Patents

一种网页内容提取方法、系统、电子设备及介质 Download PDF

Info

Publication number
CN110427541B
CN110427541B CN201910717220.9A CN201910717220A CN110427541B CN 110427541 B CN110427541 B CN 110427541B CN 201910717220 A CN201910717220 A CN 201910717220A CN 110427541 B CN110427541 B CN 110427541B
Authority
CN
China
Prior art keywords
content
html
extracted
webpage
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910717220.9A
Other languages
English (en)
Other versions
CN110427541A (zh
Inventor
赵姝
余豪
段震
陈洁
张燕平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN201910717220.9A priority Critical patent/CN110427541B/zh
Publication of CN110427541A publication Critical patent/CN110427541A/zh
Application granted granted Critical
Publication of CN110427541B publication Critical patent/CN110427541B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/972Access to data in other repository systems, e.g. legacy data or dynamic Web page generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/986Document structures and storage, e.g. HTML extensions

Abstract

本发明提供了一种网页内容提取方法,包括以下步骤:S1:针对待提取网页所属网站的代码规则确定HTML代码中与提取内容相关的第一特征、第二特征和第三特征S2:定义索引关键词;S3:提取完整的HTML页面;S4:确定索引关键词的父级范围;S5:将匹配关键词与输入的索引关键词进行比对,计算匹配概率;S6:输出匹配概率最大的匹配关键词对应的待提取内容。本发明提供的网页内容提取方法和系统的优点在于:通过前期对网站规则的解读确定相应特征进行后期的检索和提取,提高了在不同网站进行提取的适用性,通过匹配概率选择匹配度最高的关键词,提高了准确性,便于后期的数据处理,降低数据清洗难度。

Description

一种网页内容提取方法、系统、电子设备及介质
技术领域
本发明涉及信息检索与提取技术领域,尤其涉及一种网页内容提取方法系统、电子设备及介质。
背景技术
现如今,互联网技术高速发展,互联网上的数据呈爆炸式增长。网页信息抽取(网络爬虫)旨在从互联网上参差不齐的数据中爬取所需的有用数据以供研究或使用。
大部分网站的数据内容都比较规整,可以通过分析网页中的内容,确定所需要提取内容在DOM树中的相对位置,从而提取相关的数据,但是当内容比较繁多,网站后台可以自定义数据格式的时候,网页中的信息格式并不都是统一的,会出现很多界面内容错乱,因此目前的提取技术对于解决不规整网页时会出现一定的困难,不能有效的将非结构化的数据变成结构化的数据。比如一些论文网站,里面的关键词Subjects,会有多种形式,如sbujects,subject等各种各样形式,而且相关的位置可能会在最上方或者最下方,对于常规的提取方法,里面的内容以及位置不固定,给数据提取以及提取之后的数据清洗带来了很大的困扰。
发明内容
本发明所要解决的技术问题在于针对不同的网页编码规则和字段定义规则提供一种能够适应不同规则的信息提取的方法和系统。
本发明是通过以下技术方案解决上述技术问题的:
一种网页内容提取方法,包括以下步骤:
S1:针对待提取网页所属网站的代码规则确定HTML代码中与待提取内容所在父级范围对应的第一特征、对HTML代码进行分行的第二特征、以及将每行HTML代码分成包括第一部分和第二部分的第三特征;每行HTML代码对应于父级范围内的一个子范围,所述第一部分对应于网页内容中的匹配关键词,所述第二部分对应于网页内容中的待提取内容;
S2:定义索引关键词;
S3:提取待提取网页的HTML标签树判断HTML代码是否完整,如果完整,则生成完整的HTML页面,如果不完整,则将不完整的标签进行补齐并生成完整的HTML页面;
S4:基于第一特征对网页内容进行定位,确定索引关键词的父级范围;
S5:基于第二特征和第三特征提取每一行HTML代码第一部分对应的匹配关键词与输入的索引关键词进行比对,计算匹配概率;
S6:输出匹配概率最大的匹配关键词对应的待提取内容。
优选地,步骤S3中针对加载完的HTML页面,确定页面中是否存在待解析的js脚本,如果页面中没有js脚本,则直接生成完整的HTML页面;如果存在js脚本,对js脚本渲染后生成完整的HTML页面。
优选地,步骤S3中通过splash技术对js脚本进行动态渲染。
优选地,步骤S4中基于第一特征使用xpath算法对待提取内容的父级范围进行定位。
优选地,步骤S5中计算匹配概率的方法为:
将匹配关键词存储为一阶矩阵X=[xM],索引关键词存储为一阶矩阵Y=[yN],集合中的每个元素代表一个字母;引入M*N的二维矩阵CM,N,令
Figure GDA0003759776950000021
其中,i∈[0,M],j∈[0,N];
则匹配概率为Ci,j/N。
本发明还提供了一种网页内容提取系统,包括
特征提取模块:针对待提取网页所属网站的代码规则确定HTML代码中与待提取内容所在父级范围对应的第一特征、对HTML代码进行分行的第二特征、以及将每行HTML代码分成包括第一部分和第二部分的第三特征;每行HTML代码对应于父级范围内的一个子范围,所述第一部分对应于网页内容中的匹配关键词,所述第二部分对应于网页内容中的待提取内容;
关键词定义模块:定义索引关键词;
代码提取模块:提取待网页的HTML标签树判断HTML代码是否完整,如果完整,则生成完整的HTML页面,如果不完整,则将不完整的标签进行补齐并生成完整的HTML页面;
父级定位模块:基于第一特征对网页内容进行定位,确定索引关键词的父级范围;
匹配计算模块:基于第二特征和第三特征提取每一行HTML代码第一部分对应的匹配关键词与输入的索引关键词进行比对,计算匹配概率;
内容提取模块:提取匹配概率最大的匹配关键词对应的待提取内容。
本发明还提供了一种电子处理设备,包括至少一个处理器和存储有至少一个执行程序的存储装置,当所述至少一个执行程序被所述至少一个处理器执行,所述至少一个处理器实现所述的方法。
本发明还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时能够实现所述的方法。
本发明提供的网页内容提取方法和系统的优点在于:通过前期对网站规则的解读确定相应特征进行后期的检索和提取,提高了在不同网站进行提取的适用性,通过匹配概率选择匹配度最高的关键词,提高了准确性,便于后期的数据处理,降低数据清洗难度。
附图说明
图1为本发明的实施例所提供的网页内容提取方法的流程图;
图2为本发明的实施例所提供的网页HTML页面示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。
如图1所示,本实施例提供了一种网页内容提取方法,包括
S1:针对待提取网页所属网站的代码规则确定HTML代码中与待提取内容所在父级范围对应的第一特征、对HTML代码进行分行的第二特征、以及将每行HTML代码分成包括第一部分和第二部分的第三特征;每行HTML代码对应于父级范围内的一个子范围,所述第一部分对应于网页内容中的匹配关键词,所述第二部分对应于网页内容中的待提取内容;
参考图2,本实施例以英文文献网站arXiv.org为例进行说明,其访问地址为:https://arxiv.org,本实施例希望提取的内容为文献所属的学科,即网页中“Subjects”后面对应的内容;对其HTML代码进行分析,框4中出现了表示科目的关键词subjects,其所属的父级范围的divclass参考框1,确定为metastable,即第一特征为metastable,结合框2和框3可以确定其第二特征为tr,结合框4和框5可以确定其第三特征为td。父级范围被第二特征tr分为四个子范围,子范围被第三特征td分为第一部分和第二部分,所述第一部分对应于网页内容中的匹配关键词subjects,所述第二部分对应于网页内种中的待提取内容AstrophysicsofGalaxies(Astro-ph.GA)。
S2:定义索引关键词;由于不同的网站对学科使用的关键词不完全相同,本实施例选用subject作为索引关键词,如果需要提取其他信息可自行定义使用索引关键词。
S3:提取待提取网页的HTML标签树判断HTML代码是否完整,如果完整,则生成完整的HTML页面,如果不完整,则将不完整的标签进行补齐并生成完整的HTML页面;
判断HTML页面是否完整的具体方法为检测页面中是否存在未解析的js脚本,如果页面中没有js脚本,直接生成完整的HTML页面,如果存在js脚本,对js脚本渲染后生成完整的HTML页面。本实施例以现有技术中的splash渲染引擎对js脚本进行动态渲染。
S4:基于第一特征对网页内容进行定位,确定索引关键词的父级范围;本实施例以现有技术中的使用xpath算法输入所述第一特征进行父级定位。
S5:基于第二特征和第三特征提取每一行HTML代码第一部分对应的匹配关键词与输入的索引关键词进行比对,计算匹配概率;
将匹配关键词存储为一阶矩阵X=[xM],索引关键词存储为一阶矩阵Y=[yN],集合中的每个元素代表一个字母;引入M*N的二维矩阵CM,N,令
Figure GDA0003759776950000041
其中,i∈[0,M],j∈[0,N];
则匹配概率为Ci,j/N。
下面以匹配关键词为sbujects为例进行说明上述计算方法,索引关键词依然为subject,此时矩阵X=[s,b,u,j,e,c,t,s],矩阵Y=[s,u,b,j,e,c,t],M=8,N=7;
利用公式(1)计算矩阵C8,7的数值得到下表;
Figure GDA0003759776950000042
Figure GDA0003759776950000051
表1:二维矩阵数据
对于矩阵Cij,实际上不存在i=0或j=0,本申请为了计算方便添加了这一内容,根据公式(1)可知Ci0和C0j均填充为0。
i=1时,由于x1=y1,故C11=C00+1=1,由于x1≠y2,则C12=max(C02,C11)=1,经过分析可知当xi≠yj时,填充结果为其前方和上方数值中较大的结果,由此可确定第一行其他位置均为1。
i=2时,由于x2=y3,则C23=C12+1=2,其余位置均不相等,故C21=max(C11,C20)=1,C22=max(C21,C12)=1,其余位置均填充2。
i=3时,由于x3=y2,则C32=C21+1=2,其余位置均不相等,故C31=max(C21,C30)=1,其余位置均填充2。
i=4时,由于x4=y4,则C44=C33+1=3,其余位置均不相等,故得到C41=1,C42=2,C43=2,C45=max(C35,C44)=2,其余位置均为3.
i=5时,由于x5=y5,则C55=C44+1=4,其余位置均不相等,C55之前的元素数值与各自上方的数值相同,C55之后的数值与C55相同,均为4。
由于x6=y6,x7=y7,可知C66=5,C77=6,其余位置不再详述。
当i=8时,由于x8=y1,则C81=C70+1=1,其余位置均与同列上一行数值相同,不再赘述。
最终得到C8,7=6,则匹配关键词sbujects的匹配概率为6/7。
S6:输出匹配概率最大的匹配关键词对应的待提取内容;具体为将匹配度最高的匹配关键词对应的HTML代码所在的子范围内的第二部分HTML代码对应的网页内容提取出来。
在上述实施例中,仅给出了基于HTML代码进行范围划分和提取的起始特征,而没有给出系统识别的终止特征,对于本领域技术人员来说,应该知晓父级范围为HTML代码中符合第一特征的divclass到与其对应的/div符号处,子范围以tr起始,并以紧随其后的/tr认为是该子范围的终点特征,第一部分和第二部分均已td起始,以/td作为终点特征。当然,本领域技术人员也可以用下一个同级别的命令符作为终止特征。
本实施例对步骤做出的编号仅用于区分各步骤,不用于限定各步骤的顺序。
本申请还提供了一种网页内容提取系统,包括
特征提取模块:针对待提取网页所属网站的代码规则确定HTML代码中与待提取内容所在父级范围对应的第一特征、对HTML代码进行分行的第二特征、以及将每行HTML代码分成包括第一部分和第二部分的第三特征;每行HTML代码对应于父级范围内的一个子范围,所述第一部分对应于网页内容中的匹配关键词,所述第二部分对应于网页内容中的待提取内容;
关键词定义模块:定义索引关键词;
代码提取模块:提取待网页的HTML标签树判断HTML代码是否完整,如果完整,则生成完整的HTML页面,如果不完整,则将不完整的标签进行补齐并生成完整的HTML页面;
父级定位模块:基于第一特征对网页内容进行定位,确定索引关键词的父级范围;
匹配计算模块:基于第二特征和第三特征提取每一行HTML代码第一部分对应的匹配关键词与输入的索引关键词进行比对,计算匹配概率;
内容提取模块:提取匹配概率最大的匹配关键词对应的待提取内容。
本申请还提供了一种电子处理设备,包括至少一个处理器和存储有至少一个执行程序的存储装置,当所述至少一个执行程序被所述至少一个处理器执行,使得所述至少一个处理器实现以下方法:
S1:针对待提取网页所属网站的代码规则确定HTML代码中与待提取内容所在父级范围对应的第一特征、对HTML代码进行分行的第二特征、以及将每行HTML代码分成包括第一部分和第二部分的第三特征;每行HTML代码对应于父级范围内的一个子范围,所述第一部分对应于网页内容中的匹配关键词,所述第二部分对应于网页内容中的待提取内容;
S2:定义索引关键词;
S3:提取待提取网页的HTML标签树判断HTML代码是否完整,如果完整,则生成完整的HTML页面,如果不完整,则将不完整的标签进行补齐并生成完整的HTML页面;
S4:基于第一特征对网页内容进行定位,确定索引关键词的父级范围;
S5:基于第二特征和第三特征提取每一行HTML代码第一部分对应的匹配关键词与输入的索引关键词进行比对,计算匹配概率;
S6:输出匹配概率最大的匹配关键词对应的待提取内容。
本申请还提供了了一种计算机可读存储介质,内存储有计算机程序,当所述算计程序被处理器执行时,能够实现以下方法:
S1:针对待提取网页所属网站的代码规则确定HTML代码中与待提取内容所在父级范围对应的第一特征、对HTML代码进行分行的第二特征、以及将每行HTML代码分成包括第一部分和第二部分的第三特征;每行HTML代码对应于父级范围内的一个子范围,所述第一部分对应于网页内容中的匹配关键词,所述第二部分对应于网页内容中的待提取内容;
S2:定义索引关键词;
S3:提取待提取网页的HTML标签树判断HTML代码是否完整,如果完整,则生成完整的HTML页面,如果不完整,则将不完整的标签进行补齐并生成完整的HTML页面;
S4:基于第一特征对网页内容进行定位,确定索引关键词的父级范围;
S5:基于第二特征和第三特征提取每一行HTML代码第一部分对应的匹配关键词与输入的索引关键词进行比对,计算匹配概率;
S6:输出匹配概率最大的匹配关键词对应的待提取内容。

Claims (7)

1.一种网页内容提取方法,其特征在于:包括以下步骤:
S1:针对待提取网页所属网站的代码规则确定HTML代码中与待提取内容所在父级范围对应的第一特征、对HTML代码进行分行的第二特征、以及将每行HTML代码分成包括第一部分和第二部分的第三特征;每行HTML代码对应于父级范围内的一个子范围,所述第一部分对应于网页内容中的匹配关键词,所述第二部分对应于网页内容中的待提取内容;
S2:定义索引关键词;
S3:提取待提取网页的HTML标签树判断HTML代码是否完整,如果完整,则生成完整的HTML页面,如果不完整,则将不完整的标签进行补齐并生成完整的HTML页面;
S4:基于第一特征对网页内容进行定位,确定索引关键词的父级范围;
S5:基于第二特征和第三特征提取每一行HTML代码第一部分对应的匹配关键词与输入的索引关键词进行比对,计算匹配概率;方法为:
将匹配关键词存储为一阶矩阵X=[xM],索引关键词存储为一阶矩阵Y=[yN],集合中的每个元素代表一个字母;引入M*N的二维矩阵CM,N,令
Figure FDA0003759776940000011
其中,i∈[0,M],j∈[0,N];
则匹配概率为Ci,j/N;
S6:输出匹配概率最大的匹配关键词对应的待提取内容。
2.根据权利要求1所述的一种网页内容提取方法,其特征在于:步骤S3中针对加载完的HTML页面,确定页面中是否存在待解析的js脚本,如果页面中没有js脚本,则直接生成完整的HTML页面;如果存在js脚本,对js脚本渲染后生成完整的HTML页面。
3.根据权利要求2所述的一种网页内容提取方法,其特征在于:步骤S3中通过splash技术对js脚本进行动态渲染。
4.根据权利要求1所述的一种网页内容提取方法,其特征在于:步骤S4中基于第一特征使用xpath算法对待提取内容的父级范围进行定位。
5.一种网页内容提取系统,其特征在于:包括
特征提取模块:针对待提取网页所属网站的代码规则确定HTML代码中与待提取内容所在父级范围对应的第一特征、对HTML代码进行分行的第二特征、以及将每行HTML代码分成包括第一部分和第二部分的第三特征;每行HTML代码对应于父级范围内的一个子范围,所述第一部分对应于网页内容中的匹配关键词,所述第二部分对应于网页内容中的待提取内容;
关键词定义模块:定义索引关键词;
代码提取模块:提取待网页的HTML标签树判断HTML代码是否完整,如果完整,则生成完整的HTML页面,如果不完整,则将不完整的标签进行补齐并生成完整的HTML页面;
父级定位模块:基于第一特征对网页内容进行定位,确定索引关键词的父级范围;
匹配计算模块:基于第二特征和第三特征提取每一行HTML代码第一部分对应的匹配关键词与输入的索引关键词进行比对,计算匹配概率;方法为:
将匹配关键词存储为一阶矩阵X=[xM],索引关键词存储为一阶矩阵Y=[yN],集合中的每个元素代表一个字母;引入M*N的二维矩阵CM,N,令
Figure FDA0003759776940000021
其中,i∈[0,M],j∈[0,N];
则匹配概率为Ci,j/N;
内容提取模块:提取匹配概率最大的匹配关键词对应的待提取内容。
6.一种电子处理设备,其特征在于:包括至少一个处理器和存储有至少一个执行程序的存储装置,当所述至少一个执行程序被所述至少一个处理器执行,所述至少一个处理器实现如权利要求1-4任一项所述的方法。
7.一种计算机可读存储介质,存储有计算机程序,其特征在于:所述计算机程序被处理器执行时能够实现如权利要求1-4任一项所述的方法。
CN201910717220.9A 2019-08-05 2019-08-05 一种网页内容提取方法、系统、电子设备及介质 Active CN110427541B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910717220.9A CN110427541B (zh) 2019-08-05 2019-08-05 一种网页内容提取方法、系统、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910717220.9A CN110427541B (zh) 2019-08-05 2019-08-05 一种网页内容提取方法、系统、电子设备及介质

Publications (2)

Publication Number Publication Date
CN110427541A CN110427541A (zh) 2019-11-08
CN110427541B true CN110427541B (zh) 2022-09-16

Family

ID=68412592

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910717220.9A Active CN110427541B (zh) 2019-08-05 2019-08-05 一种网页内容提取方法、系统、电子设备及介质

Country Status (1)

Country Link
CN (1) CN110427541B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116304457B (zh) * 2023-02-27 2024-03-29 山东乾舜广告传媒有限公司 一种网页多重信息属性的标记方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645082A (zh) * 2009-04-17 2010-02-10 华中科技大学 基于并行编程模式的相似网页去重系统
CN101676898A (zh) * 2008-09-17 2010-03-24 中国科学院自动化研究所 一种借助网络知识辅助的汉英机构名翻译方法及装置
CN102750390A (zh) * 2012-07-05 2012-10-24 翁时锋 新闻网页要素自动提取方法
CN107229668A (zh) * 2017-03-07 2017-10-03 桂林电子科技大学 一种基于关键词匹配的正文抽取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10810245B2 (en) * 2013-01-17 2020-10-20 Adobe Inc. Hybrid method of building topic ontologies for publisher and marketer content and ad recommendations

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101676898A (zh) * 2008-09-17 2010-03-24 中国科学院自动化研究所 一种借助网络知识辅助的汉英机构名翻译方法及装置
CN101645082A (zh) * 2009-04-17 2010-02-10 华中科技大学 基于并行编程模式的相似网页去重系统
CN102750390A (zh) * 2012-07-05 2012-10-24 翁时锋 新闻网页要素自动提取方法
CN107229668A (zh) * 2017-03-07 2017-10-03 桂林电子科技大学 一种基于关键词匹配的正文抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Chongjun Wang ; Peng Wei.A novel web page text information extraction method.《IEEE》.2019,第2213-2218页. *
基于Hadoop的Web页面正文抽取技术的研究;王健;《中国优秀硕士学位论文全文数据库》;20180215;第I138-2874页 *

Also Published As

Publication number Publication date
CN110427541A (zh) 2019-11-08

Similar Documents

Publication Publication Date Title
CN109885692B (zh) 知识数据存储方法、装置、计算机设备和存储介质
US9208185B2 (en) Indexing and search query processing
US8504553B2 (en) Unstructured and semistructured document processing and searching
US8005819B2 (en) Indexing and searching product identifiers
US8667004B2 (en) Providing suggestions during formation of a search query
US20180165370A1 (en) Methods and systems for object recognition
US20090313205A1 (en) Table structure analyzing apparatus, table structure analyzing method, and table structure analyzing program
US9514113B1 (en) Methods for automatic footnote generation
US9251270B2 (en) Grouping search results into a profile page
US20150161102A1 (en) Non-Standard and Standard Clause Detection
WO2011006300A1 (en) Acronym extraction
CN110738049B (zh) 相似文本的处理方法、装置及计算机可读存储介质
US10896292B1 (en) OCR error correction
JP2010205060A (ja) 文書内画像検索方法および文書内画像検索システム
CN110427541B (zh) 一种网页内容提取方法、系统、电子设备及介质
KR100917458B1 (ko) 추천검색어 제공 방법 및 시스템
CN104778232B (zh) 一种基于长查询的搜索结果的优化方法和装置
CN112445862B (zh) 物联网设备数据集构建方法、装置、电子设备和存储介质
US11100099B2 (en) Data acquisition device, data acquisition method, and recording medium
US20240020476A1 (en) Determining linked spam content
JP6655981B2 (ja) キーワード抽出装置、キーワード抽出方法、およびプログラム
JP2015130102A (ja) 文書分析装置、文書分析システム、文書分析方法およびプログラム
JP6187745B2 (ja) 文書分析システム、方法およびプログラム
CN110609938A (zh) 文本热点的发现方法、装置及计算机可读存储介质
CN115270777A (zh) 一种合同文件信息抽取方法、装置、系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant