CN115203620B - 面向接口迁移的相似语义主题的网页识别方法、装置和设备 - Google Patents

面向接口迁移的相似语义主题的网页识别方法、装置和设备 Download PDF

Info

Publication number
CN115203620B
CN115203620B CN202211114773.3A CN202211114773A CN115203620B CN 115203620 B CN115203620 B CN 115203620B CN 202211114773 A CN202211114773 A CN 202211114773A CN 115203620 B CN115203620 B CN 115203620B
Authority
CN
China
Prior art keywords
webpages
subject
semantic
webpage
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211114773.3A
Other languages
English (en)
Other versions
CN115203620A (zh
Inventor
黄罡
张颖
蔡思博
蔡华谦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN202211114773.3A priority Critical patent/CN115203620B/zh
Publication of CN115203620A publication Critical patent/CN115203620A/zh
Application granted granted Critical
Publication of CN115203620B publication Critical patent/CN115203620B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种面向接口迁移的相似语义主题网页识别方法、装置和设备,所述方法包括:获取待识别的两个网页的页面信息;对所述两个网页的页面信息进行预处理,分别得到所述两个网页的纯文本内容;利用多种算法对所述纯文本内容进行关键词提取;将所述多个关键词与预定义主题词集合中的主题词进行匹配,分别得到两个网页的多个主题词,将两个网页各自的多个主题词进行融合集成,得到两个网页各自的主题特征;根据两个网页各自的语义主题特征,判断两个网页是否为相似网页。本发明通过预处理减弱内容理解的噪声,利用多种算法提取主题词与集成匹配语义主题提升内容理解的覆盖面,提高相似网页识别的准确性,进而支持网页接口迁移到相似网页。

Description

面向接口迁移的相似语义主题的网页识别方法、装置和设备
技术领域
本发明涉及计算机技术领域,特别是一种面向接口迁移的相似语义主题的网页识别方法、装置和设备。
背景技术
随着互联网技术的发展,Web系统中存在的大量重复网页、相似网页,使得对网页访问效率较低。由于相似网页的访问接口相同,为了提升对网页进行访问效率,通过发现相似页面,将制作好的访问接口直接迁移到相似页面进行访问,进而提升了网页的访问效率。
而相关相似网页识别技术中,主要通过比较网页间的语义主题信息来进行相似网页的识别,但由于网页中包含许多与布局、外观和交互行为有关的代码段,这些代码段与页面所描述的语义内容无关,会干扰对页面内容的理解,且不同算法的倾向性不同,使得理解的语义不够全面,进而对网页的语义主题提取不够全面,导致对相似页面识别判断不准确。此外,不同的业务场景关注点不同,不同的业务领域与应用场景可以由同一个网页得到不同的主题,因此,如何提升内容理解在不同业务领域的适用性也是提高相似网页识别的关键。
发明内容
在鉴于上述问题,本发明实施例提供了一种面向接口迁移的相似语义主题的网页识别方法、装置、设备和介质,以便克服上述问题或者至少部分地解决上述问题。
本发明实施例的第一方面,公开了一种面向接口迁移的相似语义主题的网页识别方法,所述方法包括:
获取待识别的两个网页的页面信息;
对所述两个网页的页面信息进行预处理,分别得到所述两个网页的纯文本内容;
利用多种算法对所述纯文本内容进行关键词提取,得到所述两个网页页面信息各自对应的多个关键词;
将所述多个关键词与预定义主题词集合中的主题词进行匹配,分别得到所述两个网页的多个主题词,将所述两个网页各自的多个主题词进行融合集成,得到所述两个网页各自的语义主题;
根据所述两个网页各自的语义主题,判断所述两个网页是否为相似网页。
可选地,对所述两个网页的页面信息进行预处理,分别得到所述两个网页的纯文本内容,包括:
去除所述网页中与语义内容无关的代码,并从所述网页中提取出文本内容;
对所述文本内容进行过滤处理,去除所述文本内容中的无用内容,得到纯文本内容,其中,所述无用内容至少包括空格符。
可选地,利用多种算法对所述纯文本内容进行关键词提取,得到所述两个网页页面信息对应的多个关键词,包括:
将所述纯文本内容输入多个不同的关键词提取服务,通过所述多个不同的关键词提取服务提取所述纯文本内容中的关键词,其中,不同的关键词提取服务提取的关键词不完全相同。
可选地,将所述多个关键词与预定义主题词集合中的主题词进行匹配,分别得到所述两个网页的多个主题词,包括:
对所述关键词与所述主题词进行词向量提取,得到关键词向量和主题词向量;
根据所述关键词向量和所述主题词向量的余弦相似度,选出与所述关键词最相似的主题词。
可选地,针对所述两个网页中的每个网页,将该网页的多个主题词进行融合集成,得到该网页的语义主题,包括:
采用投票法的集成策略,将获得票数前N的主题词作为该网页的语义主题。
可选地,根据所述两个网页各自的语义主题,判断所述两个网页是否为相似网页,包括:
若所述两个网页的语义主题存在交集,则判定所述两个网页为相似网页。
可选地,根据所述两个网页各自的语义主题,判断所述两个网页是否为相似网页,所述方法还包括:
获取所述两个网页各自的实现结构,所述实现结构表征网页源代码的逻辑结构;
若所述两个网页的语义主题存在交集,且所述两个网页的实现结构相似,则判断所述两个网页为相似网页。
本发明实施例的第二方面,公开了一种面向接口迁移的相似语义主题的网页识别装置,所述装置包括:
信息获取模块:用于获取待识别的两个网页的页面信息;
信息处理模块,用于对所述两个网页的页面信息进行预处理,分别得到所述两个网页的纯文本内容;
关键词提取模块,用于利用多种算法对所述纯文本内容进行关键词提取,得到所述两个网页页面信息各自对应的多个关键词;
匹配融合模块,用于将所述多个关键词与预定义主题词集合中的主题词进行匹配,分别得到所述两个网页的多个主题词,将所述两个网页各自的多个主题词进行融合集成,得到所述两个网页各自的语义主题;
判断模块,用于根据所述两个网页各自的语义主题,判断所述两个网页是否为相似网页。
可选地,所述信息处理模块,包括:
内容提取模块,用于去除所述网页中与语义内容无关的代码,并从所述网页中提取出文本内容;
内容过滤模块,用于对所述文本内容进行过滤处理,去除所述文本内容中的无用内容,得到纯文本内容,其中,所述无用内容至少包括空格符。
本发明实施例的第三方面,公开了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现如本发明实施例第一方式实施例所述的面向接口迁移的相似语义主题的网页识别方法。
本发明实施例包括以下优点:
本发明实施例中,获取待识别的两个网页的页面信息,对所述两个网页的页面信息进行预处理,分别得到所述两个网页的纯文本内容,再利用多种算法对所述纯文本内容进行关键词提取,得到所述两个网页页面信息各自对应的多个关键词,所述多个关键词与预定义主题词集合中的主题词进行匹配,分别得到所述两个网页的多个主题词,将所述两个网页各自的多个主题词进行融合集成,得到所述两个网页各自的主题特征,最后根据所述两个网页各自的语义主题特征,判断所述两个网页是否为相似网页。由于在本发明实施例中,通过对网页信息进行预处理减弱内容理解的噪声,再利用多种算法进行网页信息关键词的提取,有助于更好地理解语义主题,通过对关键词进行集成匹配得到最终的语义主题,提升内容理解的覆盖面,进而提高相似页面识别的准确性,以支持网页接口迁移到相似网页。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于多源集成的内容理解方法技术构思示意图;
图2是本发明实施例提供的一种基于多源集成的内容理解方法流程图;
图3是本发明实施例提供的一种面向接口迁移的相似语义主题的网页识别方法步骤流程图;
图4是本发明实施例提供的一种关键词提取网页示例;
图5是本发明实施例提供的一种云服务输入网页示例;
图6是本发明实施例提供的一种包含多个主题网页示例;
图7是本发明实施例提供的一种面向接口迁移的相似语义主题的网页识别装置的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
针对如何准确的理解网页语义内容,主要存在以下三个问题:1)如何应对内容理解的噪声,在网页中包含许多与布局、外观和交互行为有关的代码段,这些代码段与页面所描述的语义内容无关,会干扰对页面内容的理解;2)如何提升内容理解的覆盖面,当前已经有不少的内容理解算法,但是不同算法的倾向性往往也不同,使得理解的语义不够全面;3)如何提升内容理解在不同业务领域的适用性,由内容理解算法可以得到网页的主题,而不同的业务场景关注点也会不同,我们希望根据不同的业务领域与应用场景可以由同一个网页得到不同的主题。
为解决上述问题,提高相似网页识别的准确性,本申请人提出了以下技术构思:利用多源集成的内容理解方法提取网页语义主题,其可以理解页面的语义主题并给出对应的主题标签,将多个内容理解模型通过特定的结合策略集成起来预测页面的主题,其中使用多种不同自然语言处理服务作为内容理解模型以实现更优的效果。如图1所述,该方法包含预处理、关键词提取与匹配集成三个过程,针对上述问题,通过预处理可以减弱内容理解的噪声,通过多源关键词提取与集成可以提升内容理解的覆盖面,通过匹配可以提升内容理解在不同业务领域的适用性。
具体地,如图2所示,输入网页,对网页进行预处理去除掉干扰项,得到文本,然后将文本输入多个云服务进行关键词提取,得到网页对应的多个关键词,之后将关键词匹配到预定义的主题词集合中对应的主题词,得到多个主题词,最后将多个主题词进行融合集成得到最终的语义主题。
基于上述技术构思,本发明实施例提供了一种面向接口迁移的相似语义主题的网页识别方法,参照图3,图3为本发明实施例提供的一种面向接口迁移的相似语义主题的网页识别方法步骤流程图,如图3所示,所述的方法包括:
步骤S301:获取待识别的两个网页的页面信息。
分别从Web系统中获取两个待识别网页的页面信息,获取到的页面信息是由HTML、CSS和JavaScript构成的源码,源代码中的包含有与网页实际内容有相关的语义信息,以及很多与样式和交互相关的代码,所述的语义信息在<HTML>标签中,页面信息中无关的代码主要包括<style>和<script>等标签,<style>标签中涉及的是样式信息,与文档在浏览器上的展示相关联,<script>标签中包含的是脚本语言,与文档在浏览器上的交互行为相关联。
步骤S302:对所述两个网页的页面信息进行预处理,分别得到所述两个网页的纯文本内容。
由于获取的网页页面信息中含有许多与实际的语义信息无关的代码,这些代码会干扰后续对网页页面信息的语义主题的理解,因此,需要将与语义内容无关的代码全部去,只留下有用的实际语义内容,通过对网页的页面信息进行预处理,进而得到仅含有语义信息的纯文本内容。
在本实施例中,通过对获取的网页信息进行预处理,过滤页面中的无关元素,留下纯文本内容,减弱网页内容理解的噪声,进而保证了后续语义主题理解的准确性。
步骤S303:利用多种算法对所述纯文本内容进行关键词提取,得到所述两个网页页面信息各自对应的多个关键词。
通过关键词提取方法能够对纯文本内容给出最能够表达文本内容的词语,由于不同算法的倾向性不同,导致对文本内容理解的语义不够全面,因此,为了提升内容理解算法的覆盖面,本实施例通过多种关键词提取算法对步骤S302得到了纯文本内容进行关键词提取,进而得到两个待识别网页页面信息各自对应的多个关键词,其中,所述的关键词只能是纯文本内容中的出现的词语,例如,在对图4所示的网页所展示的文本使用关键词提取,得到的关键词应该是“越位”而不会是“足球”,因为“足球”根本没出现在文本中。此外由于不同算法的倾向性不同,因此不同算法提取的关键词可能不同。
步骤S304:将所述多个关键词与预定义主题词集合中的主题词进行匹配,分别得到所述两个网页的多个主题词,将所述两个网页各自的多个主题词进行融合集成,得到所述两个网页各自的语义主题。
由于不同应用场景的关注点可能不同,希望生成的语义主题随着不同的业务领域与应用场景而改变,进而提升内容理解在不同业务领域的适用性。例如,对于上述的网页所展示的文本内容,可能关注越位本身,所以期望其语义主题为“越位”,也可能更关注足球的规则,所以期望其语义主题为“足球规则”,还可能更关注足球,所以期望其语义主题为“足球”,也可能更关注体育,所以期望其语义主题为“体育”。因此,对于不同的应用场景,通常有不同的需求,最终生成的语义主题也应该随之改变。对于步骤S303中关键词提取得到的结果通常只能是在文本中出现的词语,进而为适用于不同业务场景的语义主题。
首先,预定义主题词集合,所述的预定义主题词集合中的主题词是根据关注的业务场景而定义,然后将提取出的多个关键词都匹配到主题词集合中对应的主题词,通过将关键词与预定义的主题词进行匹配,有效地整合关键词,最后通过将匹配得到的主题词进行融合集成,就可以得到网页最优的语义主题。对主题词融合集成的方法可以是投票法,即将匹配得到的主题词进行投票,将票数前N的主题词作为最终的语义主题,且最终得到的语义主题可能不止一个。
在本实施例中,由于预定义主题词集合中的主题词根据关注的业务场景而定义,可通过改变主题词集合中的主题词以适应不同的业务场景生成不同的主题标签。例如,定义主题词集合为“足球”与“篮球”等等,这样关键词“越位”就会匹配到“足球”的主题词上;若定义主题词集合为“体育”与“财经”等等,这样关键词“越位”就会匹配到“体育”的主题词上。因此,最终生成的语义主题就可以有效地适应不同的业务场景。
在本实施例中,由于不同算法的倾向性不同,通过结合多种算法进行关键词提取,克服了不同的算法不同倾向性问题,消除不同算法倾向性而使结果更有普遍性,从而使得内容理解的语义足够全面。
步骤S305:根据所述两个网页各自的语义主题,判断所述两个网页是否为相似网页。
通过上述步骤得到的语义主题能够准确的反映出对应网页页面的内容,相似网页的语义主题相同,因此通过对两个网页的语义主题进行比较,就能判断两个页面是否为相似页面,若两个网页的对应的语义主题相同,则判断这两个网页为相似网页。
在本实施例中,先通过对网页进行预处理,过滤得到网页信息中与内容无关的代码,降低了后续对内容理解的干扰,再采用多种内容理解算法的提取网页语义内容的多个关键词,有助于更好地理解语义主题,并将提取的关键词匹配到预定义的主题词集中得到网页内容对应的多个主题词,最后将对个主题词进行融合集成,得到网页各自的语义主题,通过对关键词进行集成匹配得到最终的语义主题,提升内容理解的覆盖面,进而提高相似页面识别的准确性。
最后,基于本实施例所述方法识别出相似页面后,将制作好的访问接口直接迁移到相似网页中,通过复用访问接口而不用重新制作的方式,提升访问接口制作效率,进而提升了网页的访问的效率。
在一种实施中,对所述两个网页的页面信息进行预处理,分别得到所述两个网页的纯文本内容,包括:
去除所述网页中与语义内容无关的代码,并从所述网页中提取出文本内容;
对所述文本内容进行过滤处理,去除所述文本内容中的无用内容,得到纯文本内容,其中,所述无用内容至少包括空格符。
对网页信息进行处理,以去除网页页面信息中的无关代码,即去除<style>和<script>等与样式和交互相关的代码,进而得到与网页内容相关的代码,即<HTML>标签,因为<HTML>标签及其属性并不直接与展示的内容相关联,只有其中的文本内容才是真正网页内容,因此,再从页面的<HTML>标签中提取出文本内容,最后,对提取出来的文本内容进行过滤处理,以过滤掉文本信息中多余的空格以及空的段落,进而得到纯文本内容。
在一种实施中,利用多种算法对所述纯文本内容进行关键词提取,得到所述两个网页页面信息对应的多个关键词,包括:
将所述纯文本内容输入多个不同的关键词提取服务,通过所述多个不同的关键词提取服务提取所述纯文本内容中的关键词,其中,不同的关键词提取服务提取的关键词不完全相同。
内容理解算法的表现效果依赖于语料库的数量以及质量,而随着云服务的发展,现有的云服务厂商在实践中积累了大量且高质量的语料库,因此,将多个云服务厂商提供的自然语言处理服务作为多个单独的机器学习模型,再使用特定的结合策略将这些模型集成起来,以此实现对页面语义主题的理解。这些服务以API的形式提供服务,用户只需按照API接口要求发送请求,便可以得到对应结果。因此,本实施里中,采用多个不同云服务厂商(例如,腾讯云、华为云以及百度AI开放平台)提供的关键词提取服务对纯文本内容进行关键词提取,这些服务以API的形式提供服务。具体地,在使用关键词提取服务进行关键词提取时,我们输入待处理的纯文本内容,通过指定输出关键词的上限个数,最后输出从纯文本内容中提取的关键词。
示例地,对图5所示的网页展示的语义内容分别采用腾讯云、华为云以及百度AI开放平台对网页所示的纯文本内容进行关键词提取。
采用腾讯云提供的关键词提取服务,该服务的输入输出参数如表1所示,在此忽略了公共参数和身份验证等其他参数,在使用腾讯云服务时,输入待处理文本,还可以指定输出关键词的个数上限,输出的结果包含关键词及其可信度。
利用华为云提供的关键词抽取服务,该服务的输入输出参数如表2所示,在此忽略了公共参数和身份验证等其他参数。在使用华为云服务时,输入待处理文本及其语言类型,还可以指定输出关键词的最大数量,输出的结果为关键词的列表。
采用百度AI开放平台提供的文章标签服务,该服务的输入输出参数如表3所示,在此忽略了公共参数和身份验证等其他参数,百度AI开放平台并没有直接提供关键词提取服务,与此最相关的服务是文章标签服务,通过输入待处理的文本内容及其标题,在文本没有标题的时候我们将文本内容的第一句作为标题内容,输出的结果包含标签及其可信度。
Figure 202511DEST_PATH_IMAGE001
Figure 385231DEST_PATH_IMAGE002
Figure 430547DEST_PATH_IMAGE003
由于不同每个云服务厂商提供的关键词提取服务的侧重层面并不同,不同关键词提取服务提取的关键词可能不同,在最极端的情况下有可能每个服务得到的关键词都不同,通过联合使用多种关键词提取服务可以使得结果尽可能全面。
在一种实施中,将所述多个关键词与预定义主题词集合中的主题词进行匹配,分别得到所述两个网页的多个主题词,包括:
对所述关键词与所述主题词进行词向量提取,得到关键词向量和主题词向量;
根据所述关键词向量和所述主题词向量的余弦相似度,选出与所述关键词最相似的主题词。
本实施例中,采用相似度的方法将提取到的多个关键词匹配到对应的主题词,具体来说,先得到对关键词与主题词的进行词向量提取,再基于词向量的余弦相似度选出与关键词最相似的主题词,即为该关键词所属的主题。
所述余弦相似度,又称为余弦相似性,是指通过计算两个向量的夹角余弦值来评估他们的相似度;具体地,通过将向量根据坐标值,绘制到向量空间中,通过求得他们的夹角,并得出夹角对应的余弦值,此余弦值就可以用来表征这两个向量的相似性。夹角越小,余弦值越接近于1,余弦值的范围在[-1,1]之间,值越趋近于1,代表两个向量的方向越趋近于0,他们的方向更加一致,相应的相似度也越高。
在一种实施例中,针对所述两个网页中的每个网页,将该网页的多个主题词进行融合集成,得到该网页的语义主题,包括:
采用投票法的集成策略,将获得票数前N的主题词作为该网页的语义主题。
网页页面的文本内容可以同时属于多个主题,如图6所示网页所展示的文本,该文本即同时属于汽车、健康和财经等主题,因此,以便更好地描述文本的主题,对于一段文本内容最终会生成多个主题词而不是1个主题词。
在本实施例中,将得到的多个主题词进行采用投票集成的策略,即少数服从多数,将获得票数前N的主题词作为该网页的最终的语义主题,其中,N大于等于1,小于等于总主题词的个数。例如,采用投票的方法,将票数前3的主题词作为最终的语义主题,进而得到最能够表达网页内容的3个主题词。
在一种实施中,根据所述两个网页各自的语义主题,判断所述两个网页是否为相似网页,包括:
若所述两个网页的语义主题存在交集,则判定所述两个网页为相似网页。
由于两个网页各自的语义主题不止一个,每个不同的语义主题均能够反映对应的网页内容,在本实施例中通过计算两个网页语义主题集合是否存在交集,即两个网页的语义集合中有相同的主题词,若存在交集就判定这两个页面的语义主题相似,进而判定所述的两个网页为相似页面。
在一种优选的实施中,根据所述两个网页各自的语义主题,判断所述两个网页是否为相似网页,所述方法还包括:
获取所述两个网页各自的实现结构,所述实现结构表征网页源代码的逻辑结构;
若所述两个网页的语义主题存在交集,且所述两个网页的实现结构相似,则判断所述两个网页为相似网页。
由于很多网页都基于特定模板而开发出来,因此很多相似网页的语义主题和实现结构(指网页的源代码的逻辑结构)都相似,因此可以通过比较两个网页的语义主题和实现结构来判断两个网页是否为相似页面,其中,网页的实现结构可以通过DOM树等方式来表征,在此对网页的实现结构的表征方式不做限定,若两个网页的语义主题集中的语义主题存在交集,且两个网页的实现结相似,即网页的源代码的逻辑结构,则判断两个网页为相似页面。
在本实施例中,通过结合两个网页间的语义主题和实现结构来判断两个两个网页是否为相似页面,由于所述的语义主题是通过对网页信息进行预处理、关键词提取与匹配集成等过程得到的,能够准确的反映网页的内容,且在不同业务领域的适用性强,所述的实现结构反映了网页的源代码逻辑,因此结合网页的语义主题和实现结构对网页的相似性进行判断,提高了相似网页识别的准确性。
如图4所示,图4为本发明实施例提供的一种面向接口迁移的相似语义主题网页识别装置的结构示意图。如图4所示,所述装置具体可以包括以下模块:
信息获取模块:用于获取待识别的两个网页的页面信息;
信息处理模块,用于对所述两个网页的页面信息进行预处理,分别得到所述两个网页的纯文本内容;
关键词提取模块,用于利用多种算法对所述纯文本内容进行关键词提取,得到所述两个网页页面信息各自对应的多个关键词;
匹配融合模块,用于将所述多个关键词与预定义主题词集合中的主题词进行匹配,分别得到所述两个网页的多个主题词,将所述两个网页各自的多个主题词进行融合集成,得到所述两个网页各自的语义主题;
判断模块,用于根据所述两个网页各自的语义主题,判断所述两个网页是否为相似网页。
可选地,所述信息处理模块,包括:
内容提取模块,用于去除所述网页中与语义内容无关的代码,并从所述网页中提取出文本内容;
内容过滤模块,用于对所述文本内容进行过滤处理,去除所述文本内容中的无用内容,得到纯文本内容,其中,所述无用内容至少包括空格符。
本发明实施例还提供了一种电子设备,可以包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器被配置为执行本发明第一方面实施例所述的面向接口迁移的相似语义主题的网页识别方法。
本发明实施例提供一种面向接口迁移的相似语义主题的网页识别方法、装置和设备,所述方法包括:获取待识别的两个网页的页面信息,对所述两个网页的页面信息进行预处理,分别得到所述两个网页的纯文本内容,再利用多种算法对所述纯文本内容进行关键词提取,得到所述两个网页页面信息各自对应的多个关键词,所述多个关键词与预定义主题词集合中的主题词进行匹配,分别得到所述两个网页的多个主题词,将所述两个网页各自的多个主题词进行融合集成,得到所述两个网页各自的主题特征,最后根据所述两个网页各自的语义主题特征,判断所述两个网页是否为相似网页。由于在本发明实施例中,通过对网页信息进行预处理减弱内容理解的噪声,再利用多种算法进行网页信息关键词的提取,有助于更好地理解语义主题,通过对关键词进行集成匹配得到最终的语义主题,提升内容理解的覆盖面,进而提高相似页面识别的准确性。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本发明实施例是参照根据本发明实施例的方法、装置、电子设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种面向接口迁移的相似语义主题的网页识别方法、装置和设备进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (7)

1.一种面向接口迁移的相似语义主题网页识别方法,其特征在于,包括:
获取待识别的两个网页的页面信息;
对所述两个网页的页面信息进行预处理,分别得到所述两个网页的纯文本内容;
将所述纯文本内容输入多个不同的关键词提取服务,通过所述多个不同的关键词提取服务提取所述纯文本内容中的关键词,其中,不同的关键词提取服务提取的关键词不完全相同;
将所述多个关键词与预定义主题词集合中的主题词进行匹配,分别得到所述两个网页的多个主题词,将所述两个网页各自的多个主题词进行融合集成,得到所述两个网页各自的语义主题,所述预定义主题词集合中的主题词是根据关注的业务场景而定义的,通过改变主题词集合中的主题词以适应不同的业务场景,生成不同的语义主题,在不同的业务场景下,同一个网页的语义主题不同;
根据所述两个网页各自的语义主题,判断所述两个网页是否为相似网页,包括:
若所述两个网页的语义主题存在交集,则判定所述两个网页为相似网页;或
获取所述两个网页各自的实现结构,所述实现结构表征网页源代码的逻辑结构;若所述两个网页的语义主题存在交集,且所述两个网页的实现结构相似,则判断所述两个网页为相似网页。
2.根据权利要求1所述的方法,其特征在于,对所述两个网页的页面信息进行预处理,分别得到所述两个网页的纯文本内容,包括:
去除所述网页中与语义内容无关的代码,并从所述网页中提取出文本内容;
对所述文本内容进行过滤处理,去除所述文本内容中的无用内容,得到纯文本内容,其中,所述无用内容至少包括空格符。
3.根据权利要求1所述的方法,其特征在于,将所述多个关键词与预定义主题词集合中的主题词进行匹配,分别得到所述两个网页的多个主题词,包括:
对所述关键词与所述主题词进行词向量提取,得到关键词向量和主题词向量;
根据所述关键词向量和所述主题词向量的余弦相似度,选出与所述关键词最相似的主题词。
4.根据权利要求1所述的方法,其特征在于,针对所述两个网页中的每个网页,将该网页的多个主题词进行融合集成,得到该网页的语义主题,包括:
采用投票法的集成策略,将获得票数前N的主题词作为该网页的语义主题。
5.一种面向接口迁移的相似语义主题网页识别装置,其特征在于,所述装置包括:
信息获取模块:用于获取待识别的两个网页的页面信息;
信息处理模块,用于对所述两个网页的页面信息进行预处理,分别得到所述两个网页的纯文本内容;
关键词提取模块,用于将所述纯文本内容输入多个不同的关键词提取服务,通过所述多个不同的关键词提取服务提取所述纯文本内容中的关键词,其中,不同的关键词提取服务提取的关键词不完全相同;
匹配融合模块,用于将所述多个关键词与预定义主题词集合中的主题词进行匹配,分别得到所述两个网页的多个主题词,将所述两个网页各自的多个主题词进行融合集成,得到所述两个网页各自的语义主题,所述预定义主题词集合中的主题词是根据关注的业务场景而定义的,通过改变主题词集合中的主题词以适应不同的业务场景,生成不同的语义主题,在不同的业务场景下,同一个网页的语义主题不同;
判断模块,用于根据所述两个网页各自的语义主题,判断所述两个网页是否为相似网页,包括:
若所述两个网页的语义主题存在交集,则判定所述两个网页为相似网页;或
获取所述两个网页各自的实现结构,所述实现结构表征网页源代码的逻辑结构;若所述两个网页的语义主题存在交集,且所述两个网页的实现结构相似,则判断所述两个网页为相似网页。
6.根据权利要求5所述的装置,其特征在于,所述信息处理模块,包括:
内容提取模块,用于去除所述网页中与语义内容无关的代码,并从所述网页中提取出文本内容;
内容过滤模块,用于对所述文本内容进行过滤处理,去除所述文本内容中的无用内容,得到纯文本内容,其中,所述无用内容至少包括空格符。
7.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现如权利要求1-4任一所述的面向接口迁移的相似语义主题的网页识别方法。
CN202211114773.3A 2022-09-14 2022-09-14 面向接口迁移的相似语义主题的网页识别方法、装置和设备 Active CN115203620B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211114773.3A CN115203620B (zh) 2022-09-14 2022-09-14 面向接口迁移的相似语义主题的网页识别方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211114773.3A CN115203620B (zh) 2022-09-14 2022-09-14 面向接口迁移的相似语义主题的网页识别方法、装置和设备

Publications (2)

Publication Number Publication Date
CN115203620A CN115203620A (zh) 2022-10-18
CN115203620B true CN115203620B (zh) 2023-02-07

Family

ID=83572560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211114773.3A Active CN115203620B (zh) 2022-09-14 2022-09-14 面向接口迁移的相似语义主题的网页识别方法、装置和设备

Country Status (1)

Country Link
CN (1) CN115203620B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593200A (zh) * 2009-06-19 2009-12-02 淮海工学院 基于关键词频度分析的中文网页分类方法
CN105893611A (zh) * 2016-04-27 2016-08-24 南京邮电大学 一种构建面向社交网络的兴趣主题语义网络的方法
CN114490956A (zh) * 2020-10-26 2022-05-13 北京金山数字娱乐科技有限公司 一种关键词提取方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130085745A1 (en) * 2011-10-04 2013-04-04 Salesforce.Com, Inc. Semantic-based approach for identifying topics in a corpus of text-based items
CN102831246B (zh) * 2012-09-17 2014-09-24 中央民族大学 藏文网页分类方法和装置
CN113569044B (zh) * 2021-06-28 2023-07-18 南京大学 一种基于自然语言处理技术的网页文本内容的分类方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101593200A (zh) * 2009-06-19 2009-12-02 淮海工学院 基于关键词频度分析的中文网页分类方法
CN105893611A (zh) * 2016-04-27 2016-08-24 南京邮电大学 一种构建面向社交网络的兴趣主题语义网络的方法
CN114490956A (zh) * 2020-10-26 2022-05-13 北京金山数字娱乐科技有限公司 一种关键词提取方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于概念和语义网络的近似网页检测算法;曹玉娟 等;《软件学报》;20110815;第1819-1822页 *

Also Published As

Publication number Publication date
CN115203620A (zh) 2022-10-18

Similar Documents

Publication Publication Date Title
CN108595583B (zh) 动态图表类页面数据爬取方法、装置、终端及存储介质
US20150067476A1 (en) Title and body extraction from web page
CN108038173B (zh) 一种网页分类方法、系统及一种网页分类设备
CN109033282B (zh) 一种基于抽取模板的网页正文抽取方法及装置
CN109344355B (zh) 针对网页变化的自动回归检测与块匹配自适应方法和装置
CN112818200A (zh) 基于静态网站的数据爬取及事件分析方法及系统
CN111291551B (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN106934049B (zh) 一种新闻选题分析方法及装置
Murthy XML URL classification based on their semantic structure orientation for web mining applications
CN113239256B (zh) 生成网站签名的方法、识别网站的方法及装置
CN112395407B (zh) 企业实体关系的抽取方法、装置及存储介质
CN104268246B (zh) 生成访问互联网站点指令脚本的方法及访问方法和装置
US11755958B1 (en) Systems and methods for detecting cryptocurrency wallet artifacts in a file system
CN111125704B (zh) 一种网页挂马识别方法及系统
CN115203620B (zh) 面向接口迁移的相似语义主题的网页识别方法、装置和设备
CN115391711B (zh) 网页正文信息提取方法、装置、设备及介质
CN115437930B (zh) 网页应用指纹信息的识别方法及相关设备
CN109558580B (zh) 一种文本分析方法及装置
CN115186240A (zh) 基于关联性信息的社交网络用户对齐方法、装置、介质
CN111723280A (zh) 信息的处理方法、装置、存储介质及电子设备
CN112115362B (zh) 一种基于相似代码识别的编程信息推荐方法及装置
CN114417860A (zh) 一种信息检测方法、装置及设备
WO2018171189A1 (zh) 一种浏览器广告拦截方法、装置及终端
CN110610001A (zh) 短文本完整性识别方法、装置、存储介质及计算机设备
CN115358318A (zh) 基于功能和结构的近亲Web页面识别方法、装置和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant