CN115827953A - 用于网页数据抽取的数据处理方法、存储介质及电子设备 - Google Patents

用于网页数据抽取的数据处理方法、存储介质及电子设备 Download PDF

Info

Publication number
CN115827953A
CN115827953A CN202310134131.8A CN202310134131A CN115827953A CN 115827953 A CN115827953 A CN 115827953A CN 202310134131 A CN202310134131 A CN 202310134131A CN 115827953 A CN115827953 A CN 115827953A
Authority
CN
China
Prior art keywords
target
current word
webpage
data
characters
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310134131.8A
Other languages
English (en)
Other versions
CN115827953B (zh
Inventor
王殿胜
籍焱
王凯
张丽颖
赵楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Travelsky Mobile Technology Co Ltd
Original Assignee
China Travelsky Mobile Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Travelsky Mobile Technology Co Ltd filed Critical China Travelsky Mobile Technology Co Ltd
Priority to CN202310134131.8A priority Critical patent/CN115827953B/zh
Publication of CN115827953A publication Critical patent/CN115827953A/zh
Application granted granted Critical
Publication of CN115827953B publication Critical patent/CN115827953B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种用于网页数据抽取的数据处理方法、存储介质及电子设备,其包括:获取目标网页的待处理访问路径数据A1=(a1,a2,...,ai,...,an),i=1,2,...,n;其中,ai为在目标网站中与目标网页对应的第i级网页的标题,目标网页为目标网站中的任一网页;n为获取到的在目标网站中与目标网页对应的网页的标题的数量;确定目标网页的标题a0与an是否相同;若相同,则将A1作为处理后访问路径数据A2;否则,获取处理后访问路径数据A2=(a1,a2,...,ai,...,an,a0);在若干意图中,确定出A2对应的意图作为第一目标意图。由此,本发明确定目标网页的意图的准确度较高。

Description

用于网页数据抽取的数据处理方法、存储介质及电子设备
技术领域
本发明涉及数据处理领域,特别是涉及一种用于网页数据抽取的数据处理方法、存储介质及电子设备。
背景技术
随着移动互联、大数据和人工智能的发展,智能问答成为了当前民航领域的热门研究方向,为了在已有的数据中确定出用户输入的问题数据对应的答复数据,对网页进行意图识别是十分必要的。
在确定网页的意图时,由于网页的标题一般为该网页的主旨,因此可以基于网页的标题确定出该网页的意图。
然而,对于包括多级网页的网站,其中的两个对应的上级网页不同的网页,二者的标题会相同,但二者对应的意图不同,此时若两个网页分别基于网页的标题确定对应的意图,则确定出的两个网页的意图会相同。例如行李拖运的旅客须知对应的网页和机票预订的旅客须知对应的网页的标题均为旅客须知,其中行李拖运的旅客须知的意图应为行李托运,机票预订的旅客须知的意图应为机票预订,若仅基于旅客须知确定行李拖运的旅客须知对应的网页或机票预订的旅客须知对应的网页,则行李拖运的旅客须知对应的网页和机票预订的旅客须知对应的网页会被确定为同一个意图。因此,确定网页的意图的准确度较低。
发明内容
针对上述技术问题,本发明采用的技术方案为:
根据本公开的一方面,提供了一种用于网页数据抽取的数据处理方法,该方法包括:
S110,获取若干意图。
S120,获取目标网页的待处理访问路径数据A1=(a1,a2,...,ai,...,an),i=1,2,...,n;其中,ai为在目标网站中与目标网页对应的第i级网页的标题,目标网页为目标网站中的任一网页;n为获取到的在目标网站中与目标网页对应的网页的标题的数量;目标网站中与目标网页对应的第1级网页为目标网站的首页,目标网站中与目标网页对应的第d级网页,为响应于在与目标网页对应的第(d-1)级网页中点击该第d级网页对应的待点击标识后展示的网页,d=2,3,...,n;目标网站中与目标网页对应的第n级网页为目标网页或目标网页的上L级网页,L为小于n的正整数。
S130,获取目标网页的标题a0
S140,确定a0与an是否相同;若相同,则将A1作为处理后访问路径数据A2;否则,获取处理后访问路径数据A2=(a1,a2,...,ai,...,an,a0)。
S150,在若干意图中,确定出A2对应的意图作为第一目标意图。
S160,将目标网页的网页数据和第一目标意图作为目标数据组。
S170,将目标数据组存储至目标数据库中。
根据本公开的另一方面,还提供了一种非瞬时性计算机可读存储介质,存储介质中存储有至少一条指令或至少一段程序,至少一条指令或至少一段程序由处理器加载并执行以实现上述用于网页数据抽取的数据处理方法。
根据本公开的另一方面,还提供了一种电子设备,包括处理器和上述非瞬时性计算机可读存储介质。
本发明至少具有以下有益效果:
本发明可以对目标网页的A1中的an与a0进行比较,若二者相同则可以直接将A1作为A2,若二者不同,则可以在A1中补充a0后得到A2,再在若干意图中确定出A2对应的意图作为第一目标意图,然后可以将包括目标网页的网页数据和第一目标意图的目标数据组存储至目标数据库中。对于目标网站中不同的目标网页,由于不同的目标网页的访问路径不相同,因此不同的目标网页对应的A2也大概率不同,进而不同的目标网页对应的意图也大概率不同。而相关技术中,基于目标网页的标题确定目标网页的意图,则对于任意两个不同的目标网页来说,当二者对应的上级网页不同但二者的标题相同时,确定出的二者的意图大概率相同。因此本发明确定目标网页的意图的准确度较高。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的用于网页数据抽取的数据处理方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供了一种用于网页数据抽取的数据处理方法,其中,该方法可以由以下任意一项或其任意组合完成:终端、服务器、其他具备处理能力的设备,本发明实施例对此不作限定。
下面将参照图1所示的用于网页数据抽取的数据处理方法的流程图,对用于网页数据抽取的数据处理方法进行介绍。
该方法包括以下步骤:
S110,获取若干意图。
在一种可能的实施方式中,可以根据该方法的应用场景确定出若干待调整意图,然后可以根据该方法的更具体应用场景,再将若干待调整意图中,与该更具体应用场景对应的一部分待调整意图进行细化或补充,并将其他的待调整意图进行归纳,以得到若干意图。
例如,将该方法应用于航空公司的官网的智能问答这一场景中,则可以基于航空公司这一应用场景,将航空公司的官网、航空公司的业务数据和机场问答知识库等多方面的数据进行关键字获取等数据筛选处理,得到机票预定、值机、行李服务和/或机上服务等待调整意图,此时若干待调整意图是包含了官网问答服务、航班动态查询服务和机场问答服务等相关的意图的。然后可以基于航空公司的官网这一具体的应用场景,对若干待调整意图中与官网问答服务相关的待调整意图进行细化和补充,并对航班动态查询服务和机场问答服务等具体的应用场景相关的待调整意图进行归纳,并将上述细化、补充和归纳得到的每一待调整意图均作为意图,以得到若干意图。
因此,若干意图与更具体的应用场景的更多内容相关,可以使后续确定出的第一目标意图可以更准确的标识目标网页的意图。
S120,获取目标网页的待处理访问路径数据A1=(a1,a2,...,ai,...,an),i=1,2,...,n。
其中,ai为在目标网站中与目标网页对应的第i级网页的标题,目标网页为目标网站中的任一网页;n为获取到的在目标网站中与目标网页对应的网页的标题的数量;目标网站中与目标网页对应的第1级网页为目标网站的首页,目标网站中与目标网页对应的第d级网页,为响应于在与目标网页对应的第(d-1)级网页中点击该第d级网页对应的待点击标识后展示的网页,d=2,3,...,n;目标网站中与目标网页对应的第n级网页为目标网页或目标网页的上L级网页,L为小于n的正整数。
在一种可能的实施方式中,目标网站为具有多级网页的网站,目标网站可以为航空公司的官网,与目标网页对应的第(d-1)级网页中包括可以链接至与目标网页对应的第d级网页中的链接,该第(d-1)级网页中的该第d级网页对应的待点击标识即为可以链接至该第d级网页中的链接。可以基于爬虫对目标网站进行数据的批量爬取,再经过筛选可以得到与民航信息较为相关的若干网页的待处理访问路径数据,目标网页为若干网页中的任一。由于爬虫获取到的待处理访问路径数据中可能会缺少目标网站中与目标网页对应的某一级网页、某几级的网页的标题和/或目标网页的标题,因此目标网站中与目标网页对应的第n级网页为目标网页或目标网页的上L级网页,且ad可以为ad-1的上一级网页、也可以为ad-1的上Qd级网页,其中,Qd>1。其中,目标网站中与目标网页对应的第i级网页可以为目标网站中能最快链接至目标网页的链接路径中的第n级网页;目标网站中能最快链接至目标网页的链接路径与目标网页一一对应。
例如,目标网页的标题为旅客须知,则目标网页的待处理访问路径数据具体可以为A1=(首页,出行帮助,行李服务,随身携带行李),则目标网站中能最快链接至目标网页的链接路径中的第1级网页标题为“首页”、第2级网页的标题为“出行帮助”、第3级网页的标题为“行李服务”、第四级网页的标题为“随身携带行李”,在该第4级网页中可以直接链接至目标网页,此时A1中缺少目标网页的标题。上述第1级网页、第2级网页、第3级网页和第4级网页均为目标网站中与目标网页对应的网页。该目标网页的待处理访问路径数据具体还可以为A1=(首页,出行帮助,随身携带行李),此时A1中缺少目标网页的标题和目标网站中能最快链接至目标网页的链接路径中的第3级网页的标题。
S130,获取目标网页的标题a0
在一种可能的实施方式中,可以基于爬虫对目标网站进行数据的批量爬取的结果,筛选得倒目标网页的标题a0
S140,确定a0与an是否相同;若相同,则将A1作为处理后访问路径数据A2;否则,获取处理后访问路径数据A2=(a1,a2,...,ai,...,an,a0)。
在一种可能的实施方式中,在得到A1和a0后,可以确定A1中的an与a0是否相同,若相同,则说明爬取得到的A1中获取到了目标网页的标题这一数据,则可以直接将A1作为A2。若不同,则说明爬取得到的A1中未获取到或丢失了目标网页的标题这一数据,则可以在A1中补充目标网页的标题a0,以得到A2。
S150,在若干意图中,确定出A2对应的意图作为第一目标意图。
在一种可能的实施方式中,在步骤S150之前,可以获取第一初始模型和目标网站中的若干训练网页对应的第一训练样本,每一第一训练样本可以包括对应的训练网页的处理后访问路径数据和该训练网页对应的第一标签,每一第一标签可以为人为选择的若干意图中的任一。然后基于若干第一训练样本对第一初始模型进行训练,直至该损失值小于第一预设阈值,可以得到第一目标模型。在步骤S150中,可以将A2以字符串的形式输入至第一目标模型中,第一目标模型可以输出第一目标意图。例如,可以将A2以a1_a2_..._ai_..._an-a0或a1_a2_..._ai_..._an的形式输入至第一目标模型。可选的,本发明中的第一初始模型可以为LSTM(Long Short Term Memory,长短时记忆网络)模型或BERT(BidirectionalEncoder Representation from Transformer,预训练的语言表征模型)模型等模型。优选的,本发明中的第一初始模型可以采用BERT模型。
具体的,在步骤S150中,可以将A2以字符串的形式输入至第一目标模型中,第一目标模型可以输出多个意图和每一意图对应的分值,按照分值由大至小的顺序选择输出的多个意图中的至少部分意图,并将该至少部分意图中的每一意图作为第一目标意图。
S160,将目标网页的网页数据和第一目标意图作为目标数据组。
在一种可能的实施方式中,网页数据可以为对应的网页的网址或页面内容数据等数据。基于第一目标意图为一个,在得到第一目标意图后,可以获取目标网页的网页数据,然后将该网页数据和第一目标意图作为目标数据组。目标数据组可以为集合形式,例如,目标数据组BER=(ber1,ber2),ber1为目标网页的网页数据,ber2为第一目标意图。
在另一种可能的实施方式中,基于第一目标意图为多个,可以确定出每一第一目标意图对应的一个目标数据组,每一目标数据组包括对应的第一目标意图和目标网页的网页数据。
S170,将目标数据组存储至目标数据库中。
在一种可能的实施方式中,在得到目标数据组后,可以将该目标数据组存储至目标数据库中。
因此,本发明可以对目标网页的A1中的an与a0进行比较,若二者相同则可以直接将A1作为A2,若二者不同,则可以在A1中补充a0后得到A2,再在若干意图中确定出A2对应的意图作为第一目标意图,然后可以将包括目标网页的网页数据和第一目标意图的目标数据组存储至目标数据库中。对于目标网站中不同的目标网页,由于不同的目标网页的访问路径不相同,因此不同的目标网页对应的A2也大概率不同,进而不同的目标网页对应的意图也大概率不同。而相关技术中,基于目标网页的标题确定目标网页的意图,则对于任意两个不同的目标网页来说,当二者对应的上级网页不同但二者的标题相同时,确定出的二者的意图大概率相同。因此本发明确定目标网页的意图的准确度较高。
进一步的,本发明中用于确定出目标网页的意图的数据A2是基于A1和a0得到的,而在相关技术中,还可以在A1中按照标题排列的倒序选择较为重要的标题,以得到选择数据A3,并基于A3和a0得到用于确定出网页意图的数据,或基于A1和A3得到用于确定出网页意图的数据。在本发明的实验阶段,对基于A3和a0得到的用于确定出网页意图的数据、基于A1和A3得到的用于确定出网页意图的数据、基于A1和a0得到的用于确定出网页意图的数据这三种数据,分别进行了大量的确定其对应的意图的实验,并统计出基于每种数据进行意图确定的准确率,得到基于A3和a0得到的用于确定出网页意图的数据对应的准确度为60%,基于A1和A3得到的用于确定出网页意图的数据对应的准确度为62.5%,而本发明中采用的基于A1和a0得到的用于确定出网页意图的数据对应的准确度为65%。基于上述实验结果可以得知,本发明中基于A2确定出目标网页的意图的准确率较高。
可选的,目标数据库中包括若干数据组,目标数据组为若干数据组中的任一。
基于此,该方法还包括以下步骤:
S210,获取用户输入的待答复字符串H。
S220,获取关键词组集W=(w1,w2,...,wa,...,wu),wa=(wa1,wa2,...,wab,...,waq(a))。
其中,wa为第a个关键词组,a=1,2,...,u,u为关键词组的数量;wab为第a个关键词组中的第b个关键词,q(a)为第a个关键词组中的关键词的数量;同一关键词组中的每一关键词均对应同一类别标识,不同的关键词组中的关键词对应的类别标识不同。
S230,将H中包括的每一关键词均替换为该关键词对应的类别标识,得到待处理字符串H1。
S240,在若干意图中确定出待处理字符串H1对应的意图作为第二目标意图。
S250,将目标数据库中与第二目标意图相同的每一意图对应的网页数据均作为H对应的页面数据集。
S260,基于H对应的页面数据集确定出H对应的答复数据。
在一种可能的实施方式中,同一关键词组中的若干关键词属于同一类别,在任意两个不同的关键词组中的关键词属于不同的类别,每一类别均具有对应的类别标识,类别可以为城市名、机场名、航班号、航司名和/或酒店名等对应的类别。其中,每一类别具有对应的类别标识,例如,城市名对应的类别标识可以为[城市名],机场名对应的类别标识可以为[机场名],航班号对应的类别标识可以为[航班号],航司名对应的类别标识可以为[航司名],酒店名对应的类别标识可以为[酒店名]。基于此,每一类别对应的关键词组中可以包括若干属于该类别的关键词,例如,城市名对应的关键词组可以包括北京、上海、广州、深圳和/或等城市的名称。
H可以为用户在目标网站对应的一个终端中输入的待答复问题,H可以为航司相关的问题,例如,“成都双流国际机场今天最晚的航班是几点的?”。
在上述步骤S240之前,可以获取第二初始模型,并可以在航司对应的语料库中,获取若干历史用户问题,历史用户问题可以为航司对应的语料库中的用户历史输入的待答复问题,并将每一历史用户问题中包括的每一关键词均替换为该关键词对应的类别标识,得到待处理历史用户问题,然后将每一待处理历史用户问题和该问题对应的第二标签作为一个第二训练样本,以得到若干第二训练样本,每一第二标签可以为人为选择的若干意图中的任一。然后基于若干第二训练样本对第二初始模型进行训练,直至该损失值小于第二预设阈值,可以得到第二目标模型。在步骤S240中,可以将H1输入至第二目标模型中,第二目标模型可以输出第二目标意图。
因此,本发明中对H进行关键词的替换处理,以得到H1,并根据H1对应的意图在目标数据库中获取到H1对应的页面数据集作为H对应的页面数据集,此时H对应的答复数据的查找范围可以从目标网站中的全部数据缩小至H对应的页面数据集对应的数据中,进而确定H对应的答复数据时仅需要从H对应的页面数据集中确定即可,就可以节省计算资源。
进一步的,在确定H对应的意图时,由于H对应的意图与关键词相关性较小,因此将H1对应的意图作为H对应的意图可以减小在确定H对应的意图时H中某一关键词对意图确定的结果的影响,此时相比于H,H1和H对应的意图相关性较小的字符会更少,进而可以使H1相比H的意图特征更加突出,达到了提高确定H对应的意图的准确度的目的。
在一种可能的实施方式中,在步骤S210之后,可以对H进行复制备份,以得到备份字符串H´。基于网页数据为对应的网页的网址,上述基于H对应的页面数据集确定出H对应的答复数据的具体处理可以为:获取页面数据集中的每一网址对应的页面内容数据,再在页面内容数据中确定出H´对应的答复数据作为H对应的答复数据。
在另一种可能的实施方式中,基于网页数据为对应的页面内容数据,上述基于H对应的页面数据集确定出H对应的答复数据的具体处理可以为:直接在页面数据集中确定出H´对应的答复数据作为H对应的答复数据。
可选的,步骤S230包括以下步骤:
S231,对W中的w11进行第一处理。
第一处理包括以下步骤:
S310,将当前进行第一处理的关键词作为第一当前词。
S320,确定H中是否包括第一当前词;若是,则进入步骤S330;否则,进入步骤S340。
S330,根据第一当前词,在W中确定出关键词集CH=(ch1,ch2,...,che,...,chf),并进入步骤S350。
其中,che为W中不为第一当前词且包括第一当前词的第e个关键词,e=1,2,...,f,f为W中不为第一当前词且包括第一当前词的关键词的数量;long1>long2>...>longe>...>longf,longe为che的字符总数量。
S340,确定第一当前词是否为W中的最后一个关键词;若是,则将当前的H作为待处理字符串H1,并进入步骤S240;否则,对W中的第一当前词的下一个关键词进行第一处理。
S350,对CH中的ch1进行第二处理。
第二处理包括以下步骤:
S410,将当前进行第二处理的关键词作为第二当前词。
S420,确定第二当前词对应的待比较字符数量集NUM=(num1,num2)。
其中,num1为第二当前词中位于第一当前词之前的字符的数量,num2为第二当前词中位于第一当前词之后的字符的数量。
S430,若num1=0且num2≠0,则确定第二当前词中位于第一当前词之后的num2个字符与H中位于第一当前词之后的num2个字符是否相同;若是,则将H中的第一当前词和H中位于第一当前词之后的num2个字符替换为第二当前词对应的类别标识,并进入步骤S340;否则,进入步骤S440。
S440,确定第二当前词是否为CH中的最后一个关键词;若是,则将H中的第一当前词替换为第二当前词对应的类别标识,并进入步骤S340;否则,对CH中的下一个关键词进行第二处理。
因此,例如H为“成都双流国际机场今天最晚的航班是几点的?”,且W中包括“成都”和“成都双流国际机场”这两个关键词,若使用W中的关键词直接对H进行替换后,会出现H中的成都二字被替换掉,但双流国际机场并未被替换掉的情况。本发明中采用的上述方法,在识别到H中包括W中的任一关键词后,并不会直接将H中的该关键词替换,而是会通过将H中该关键词的附近字符与其他关键词继续进行比较的方式,减小H中的关键词被误替换的可能性,进而可以减小H1中出现与意图相关性较小的词的可能性,达到了提高确定H对应的意图的准确度的目的。
进一步的,本发明的CH中的关键词按照字符数量由大至小的顺序排列,若CH中的关键词随机排列,则对CH中的每一关键词均进行第二处理后,才可以在H中确定出当前要替换的字符串。而本发明可以在H中确定出当前要替换的字符串后,停止对CH中的未进行第二处理的关键词继续进行第二处理,节省计算资源。
进一步的,本发明的在得到CH后,可以确定在第二当前词中位于第一当前词之后的num2个字符与H中在第一当前词之后的num2个字符是否相同,若相同,则替换H中第一当前词和H中第一当前词之后的num2个字符。相比于在得到CH后,对于CH中的每一关键词,逐一确定H是否包括该关键词,若是,则将H中的该关键词替换掉,本发明可以在M中的任一其他关键词包括该关键词、且M中包括该其他关键词的情况下,减小将该其他关键词中的该关键词误替换掉的可能性,进而可以进一步减小H1中出现与意图相关性较小的词的可能性,达到了进一步提高确定H对应的意图的准确度的目的。
可选的,在步骤S420之后,该方法还包括以下步骤:
S450,若num1≠0且num2=0,则确定第二当前词中位于第一当前词之前的num1个字符与H中位于第一当前词之前的num1个字符是否相同;若是,则将H中的第一当前词和H中位于第一当前词之前的num1个字符替换为第二当前词对应的类别标识,并进入步骤S340;否则,进入步骤S440。
可选的,在步骤S420之后,方法还包括以下步骤:
S460,若num1≠0且num2≠0,则确定第二当前词中位于第一当前词之前的num1个字符与H中位于第一当前词之前的num1个字符是否相同,且第二当前词中位于第一当前词之后的num2个字符与H中位于第一当前词之后的num2个字符是否相同;若是,则将H中的第一当前词、H中位于第一当前词之前的num1个字符和H中位于第一当前词之后的num2个字符,替换为第二当前词对应的类别标识,并进入步骤S340;否则,进入步骤S440。
可选的,步骤S150可以包括以下步骤:
S151,将A2输入至目标模型中,得到第一目标意图;第一目标意图为若干意图中的任一。
步骤S240包括以下步骤:
S241,将H1输入至目标模型中,得到第二目标意图;第二目标意图为若干意图中的任一。
在一种可能的实施方式中,在上述步骤S151之前且在上述步骤S241之前,可以获取第三初始模型、上述若干第一训练样本和上述若干第二训练样本。然后基于若干第一训练样本和若干第二训练样本对第三初始模型进行训练,直至该损失值小于第三预设阈值,可以得到目标模型。基于此,在上述步骤S151中,可以将A2以字符串的形式输入至目标模型中,目标模型可以输出第一目标意图。在上述步骤S241中,可以将H1输入至目标模型中,目标模型可以输出第二目标意图。此时,本发明中采用目标模型与采用第一目标模型和第二目标模型相比,采用目标模型可以使用较少的第一训练样本和第二训练样本对模型进行训练,因此无需人工进行大量标记以得到训练样本中的标签,可以提升进行模型训练的效率。另外,若第一训练样本和/或第二训练样本的数量较少,训练过程中目标模型相比于第一目标模型和第二目标模型会更快收敛,以提高模型训练的效率。
在另一种可能的实施方式中,在步骤S151中,还可以将A2以字符串的形式输入至目标模型中,目标模型可以输出多个意图和每一意图对应的分值,按照分值由大至小的顺序选择输出的多个意图中的至少部分意图,并将该至少部分意图中的每一意图作为第一目标意图。
可选的,步骤S340包括以下步骤:
S341,确定第一当前词是否为W中的最后一个关键词;若是,则将当前的H作为待处理字符串H1,并进入步骤S342;否则,对W中的第一当前词的下一个关键词进行第一处理。
S342,在H1中删除每一类别标识,得到处理后字符串H2,并进入步骤S240。
步骤S241包括以下步骤:
S2411,将H2输入至目标模型中,得到第二目标意图。
因此,本发明中可以在H1中删除每一类别标识得到H2,并将H2对应的意图作为H对应的意图,此时相比于H1,H2与H对应的意图相关性较小的字符会更少,进而可以使H2相比H1的意图特征更加突出,达到了提高确定H对应的意图的准确度的目的。
可选的,步骤S430包括以下步骤:
S431,若num1=0且num2≠0,则确定第二当前词中位于第一当前词之后的num2个字符与H中位于第一当前词之后的num2个字符是否相同;若是,则进入步骤S432;否则,进入步骤S440。
S432,将H中的第一当前词和H中位于第一当前词之后的num2个字符作为一个待替换字符串存储至预设的配置文件中。
其中,存储于配置文件中的若干待替换字符串按照待替换字符串在步骤S210中的H中的排列顺序进行排列。
S433,将H中的第一当前词和H中位于第一当前词之后的num2个字符替换为第二当前词对应的类别标识,并进入步骤S340。
步骤S440包括以下步骤:
S441,确定第二当前词是否为CH中的最后一个关键词;若是,则进入步骤S442;否则,对CH中的下一个关键词进行第二处理。
S442,将H中的第一当前词作为一个待替换字符串存储至配置文件中。
S443,将H中的第一当前词替换为第二当前词对应的类别标识,并进入步骤S340。
步骤S341包括以下步骤:
S3411,确定第一当前词是否为W中的最后一个关键词;若是,则将当前的H作为待处理字符串H1,并进入步骤S3412;否则,对W中的第一当前词的下一个关键词进行第一处理。
S3412,复制H1,得到复制字符串H1´,并进入步骤S342。
在步骤S3412之后且在步骤S260之前,方法还包括以下步骤:
S270,逐一使用配置文件中的待替换字符串在H1´中替换H1´中的当前首个未被待替换字符串替换的类别标识,得到目标待答复字符串H3。
步骤S260包括以下步骤:
S261,基于H对应的页面数据集确定出H3对应的答复数据作为H对应的答复数据。
因此,确定出H对应的页面数据集的同时,还可以将H1中的类别标识进行还原,得到H3,接着直接根据H3确定答复数据即可。相比于将H备份,后续使用H确定答复数据,本发明采用的方法可以减小在并行处理多个待答复字符串时,在一个待答复字符串对应的页面数据集中确定另一个待答复字符串对应的答复数据的可能性,进而可以提高H对应的答复数据的准确度。
可选的,基于步骤S430和步骤S440包括的具体步骤,该方法还可以将步骤S450替换为以下步骤:
S470,若num1≠0且num2=0,则确定第二当前词中位于第一当前词之前的num1个字符与H中位于第一当前词之前的num1个字符是否相同;若是,则进入步骤S480;否则,进入步骤S440。
S480,将H中的第一当前词和H中位于第一当前词之前的num1个字符作为一个目标待替换字符存储至配置文件中。
S490,将H中的第一当前词和H中位于第一当前词之前的num1个字符替换为第二当前词对应的类别标识,并进入步骤S340。
可选的,该方法还可以将步骤S460替换为以下步骤:
S500,若num1≠0且num2≠0,则确定第二当前词中位于第一当前词之前的num1个字符与H中位于第一当前词之前的num1个字符是否相同,且第二当前词中位于第一当前词之后的num2个字符与H中位于第一当前词之后的num2个字符是否相同;若是,则进入步骤S510;否则,进入步骤S440。
S510,将H中的第一当前词、H中位于第一当前词之前的num1个字符和H中位于第一当前词之后的num2个字符,作为一个目标待替换字符存储至配置文件中。
S520,将H中的第一当前词、H中位于第一当前词之前的num1个字符和H中位于第一当前词之后的num2个字符,替换为第二当前词对应的类别标识,并进入步骤S340。
本发明的实施例还提供了一种非瞬时性计算机可读存储介质,该存储介质可设置于电子设备之中以保存用于实现方法实施例中一种方法相关的至少一条指令或至少一段程序,该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述实施例提供的方法。
本发明的实施例还提供了一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。
本发明的实施例还提供一种计算机程序产品,其包括程序代码,当程序产品在电子设备上运行时,程序代码用于使该电子设备执行本说明书上述描述的根据本发明各种示例性实施方式的方法中的步骤。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明开的范围由所附权利要求来限定。

Claims (10)

1.一种用于网页数据抽取的数据处理方法,其特征在于,所述方法包括以下步骤:
S110,获取若干意图;
S120,获取目标网页的待处理访问路径数据A1=(a1,a2,...,ai,...,an),i=1,2,...,n;其中,ai为在目标网站中与所述目标网页对应的第i级网页的标题,所述目标网页为所述目标网站中的任一网页;n为获取到的在所述目标网站中与所述目标网页对应的网页的标题的数量;所述目标网站中与所述目标网页对应的第1级网页为所述目标网站的首页,所述目标网站中与所述目标网页对应的第d级网页,为响应于在与所述目标网页对应的第(d-1)级网页中点击该第d级网页对应的待点击标识后展示的网页,d=2,3,...,n;所述目标网站中与所述目标网页对应的第n级网页为所述目标网页或所述目标网页的上L级网页,L为小于n的正整数;
S130,获取所述目标网页的标题a0
S140,确定a0与an是否相同;若相同,则将A1作为处理后访问路径数据A2;否则,获取处理后访问路径数据A2=(a1,a2,...,ai,...,an,a0);
S150,在若干所述意图中,确定出A2对应的意图作为第一目标意图;
S160,将所述目标网页的网页数据和所述第一目标意图作为目标数据组;
S170,将所述目标数据组存储至目标数据库中。
2.根据权利要求1所述的方法,其特征在于,所述目标数据库中包括若干数据组,所述目标数据组为若干所述数据组中的任一;
所述方法还包括以下步骤:
S210,获取用户输入的待答复字符串H;
S220,获取关键词组集W=(w1,w2,...,wa,...,wu),wa=(wa1,wa2,...,wab,...,waq(a));wa为第a个关键词组,a=1,2,...,u,u为关键词组的数量;wab为第a个关键词组中的第b个关键词,q(a)为第a个关键词组中的关键词的数量;同一关键词组中的每一关键词均对应同一类别标识,不同的关键词组中的关键词对应的类别标识不同;
S230,将H中包括的每一关键词均替换为该关键词对应的类别标识,得到待处理字符串H1;
S240,在若干所述意图中确定出待处理字符串H1对应的意图作为第二目标意图;
S250,将所述目标数据库中与所述第二目标意图相同的每一意图对应的网页数据均作为H对应的页面数据集;
S260,基于H对应的页面数据集确定出H对应的答复数据。
3.根据权利要求2所述的方法,其特征在于,所述步骤S230包括以下步骤:
S231,对W中的w11进行第一处理;
所述第一处理包括以下步骤:
S310,将当前进行所述第一处理的关键词作为第一当前词;
S320,确定H中是否包括所述第一当前词;若是,则进入步骤S330;否则,进入步骤S340;
S330,根据所述第一当前词,在W中确定出关键词集CH=(ch1,ch2,...,che,...,chf),并进入步骤S350;其中,che为W中不为所述第一当前词且包括所述第一当前词的第e个关键词,e=1,2,...,f,f为W中不为所述第一当前词且包括所述第一当前词的关键词的数量;long1>long2>...>longe>...>longf,longe为che的字符总数量;
S340,确定所述第一当前词是否为W中的最后一个关键词;若是,则将当前的H作为待处理字符串H1,并进入步骤S240;否则,对W中的所述第一当前词的下一个关键词进行所述第一处理;
S350,对CH中的ch1进行第二处理;
所述第二处理包括以下步骤:
S410,将当前进行所述第二处理的关键词作为第二当前词;
S420,确定所述第二当前词对应的待比较字符数量集NUM=(num1,num2);num1为所述第二当前词中位于所述第一当前词之前的字符的数量,num2为所述第二当前词中位于所述第一当前词之后的字符的数量;
S430,若num1=0且num2≠0,则确定所述第二当前词中位于所述第一当前词之后的num2个字符与H中位于所述第一当前词之后的num2个字符是否相同;若是,则将H中的所述第一当前词和H中位于所述第一当前词之后的num2个字符替换为所述第二当前词对应的类别标识,并进入步骤S340;否则,进入步骤S440;
S440,确定所述第二当前词是否为CH中的最后一个关键词;若是,则将H中的所述第一当前词替换为所述第二当前词对应的类别标识,并进入步骤S340;否则,对CH中的下一个关键词进行所述第二处理。
4.根据权利要求3所述的方法,其特征在于,在所述步骤S420之后,所述方法还包括以下步骤:
S450,若num1≠0且num2=0,则确定所述第二当前词中位于所述第一当前词之前的num1个字符与H中位于所述第一当前词之前的num1个字符是否相同;若是,则将H中的所述第一当前词和H中位于所述第一当前词之前的num1个字符替换为所述第二当前词对应的类别标识,并进入步骤S340;否则,进入步骤S440。
5.根据权利要求3所述的方法,其特征在于,在所述步骤S420之后,所述方法还包括以下步骤:
S460,若num1≠0且num2≠0,则确定所述第二当前词中位于所述第一当前词之前的num1个字符与H中位于所述第一当前词之前的num1个字符是否相同,且所述第二当前词中位于所述第一当前词之后的num2个字符与H中位于所述第一当前词之后的num2个字符是否相同;若是,则将H中的所述第一当前词、H中位于所述第一当前词之前的num1个字符和H中位于所述第一当前词之后的num2个字符,替换为所述第二当前词对应的类别标识,并进入步骤S340;否则,进入步骤S440。
6.根据权利要求3所述的方法,其特征在于,所述步骤S150包括以下步骤:
S151,将A2输入至目标模型中,得到第一目标意图;所述第一目标意图为若干所述意图中的任一;
所述步骤S240包括以下步骤:
S241,将H1输入至所述目标模型中,得到第二目标意图;所述第二目标意图为若干所述意图中的任一。
7.根据权利要求6所述的方法,其特征在于,所述步骤S340包括以下步骤:
S341,确定所述第一当前词是否为W中的最后一个关键词;若是,则将当前的H作为待处理字符串H1,并进入步骤S342;否则,对W中的所述第一当前词的下一个关键词进行所述第一处理;
S342,在H1中删除每一所述类别标识,得到处理后字符串H2,并进入步骤S240;
所述步骤S241包括以下步骤:
S2411,将H2输入至所述目标模型中,得到第二目标意图。
8.根据权利要求7所述的方法,其特征在于,所述步骤S430包括以下步骤:
S431,若num1=0且num2≠0,则确定所述第二当前词中位于所述第一当前词之后的num2个字符与H中位于所述第一当前词之后的num2个字符是否相同;若是,则进入步骤S432;否则,进入步骤S440;
S432,将H中的所述第一当前词和H中位于所述第一当前词之后的num2个字符作为一个待替换字符串存储至预设的配置文件中;存储于所述配置文件中的若干待替换字符串按照待替换字符串在步骤S210中的H中的排列顺序进行排列;
S433,将H中的所述第一当前词和H中位于所述第一当前词之后的num2个字符替换为第二当前词对应的类别标识,并进入步骤S340;
所述步骤S440包括以下步骤:
S441,确定所述第二当前词是否为CH中的最后一个关键词;若是,则进入步骤S442;否则,对CH中的下一个关键词进行所述第二处理;
S442,将H中的所述第一当前词作为一个待替换字符串存储至所述配置文件中;
S443,将H中的所述第一当前词替换为所述第二当前词对应的类别标识,并进入步骤S340;
所述步骤S341包括以下步骤:
S3411,确定所述第一当前词是否为W中的最后一个关键词;若是,则将当前的H作为待处理字符串H1,并进入步骤S3412;否则,对W中的所述第一当前词的下一个关键词进行所述第一处理;
S3412,复制H1,得到复制字符串H1´,并进入所述步骤S342;
在所述步骤S3412之后且在所述步骤S260之前,所述方法还包括以下步骤:
S270,逐一使用配置文件中的待替换字符串在H1´中替换H1´中的当前首个未被待替换字符串替换的类别标识,得到目标待答复字符串H3;
所述步骤S260包括以下步骤:
S261,基于H对应的页面数据集确定出H3对应的答复数据作为H对应的答复数据。
9.一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,其特征在于,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-8中任意一项的所述方法。
10.一种电子设备,其特征在于,包括处理器和权利要求9中的所述非瞬时性计算机可读存储介质。
CN202310134131.8A 2023-02-20 2023-02-20 用于网页数据抽取的数据处理方法、存储介质及电子设备 Active CN115827953B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310134131.8A CN115827953B (zh) 2023-02-20 2023-02-20 用于网页数据抽取的数据处理方法、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310134131.8A CN115827953B (zh) 2023-02-20 2023-02-20 用于网页数据抽取的数据处理方法、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN115827953A true CN115827953A (zh) 2023-03-21
CN115827953B CN115827953B (zh) 2023-05-12

Family

ID=85521888

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310134131.8A Active CN115827953B (zh) 2023-02-20 2023-02-20 用于网页数据抽取的数据处理方法、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN115827953B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150067476A1 (en) * 2013-08-29 2015-03-05 Microsoft Corporation Title and body extraction from web page
CN107784113A (zh) * 2017-11-08 2018-03-09 深圳市科盾科技有限公司 Html网页数据采集方法、装置和计算机可读存储介质
US20180107933A1 (en) * 2016-01-07 2018-04-19 Tencent Technology (Shenzhen) Company Limited Web page training method and device, and search intention identifying method and device
CN109902220A (zh) * 2019-02-27 2019-06-18 腾讯科技(深圳)有限公司 网页信息获取方法、装置和计算机可读存储介质
CN112231598A (zh) * 2020-08-31 2021-01-15 咪咕文化科技有限公司 网页路径导航方法、装置、电子设备及存储介质
CN114329216A (zh) * 2020-12-30 2022-04-12 谷歌有限责任公司 基于页面的用户意图的预测

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150067476A1 (en) * 2013-08-29 2015-03-05 Microsoft Corporation Title and body extraction from web page
US20180107933A1 (en) * 2016-01-07 2018-04-19 Tencent Technology (Shenzhen) Company Limited Web page training method and device, and search intention identifying method and device
CN107784113A (zh) * 2017-11-08 2018-03-09 深圳市科盾科技有限公司 Html网页数据采集方法、装置和计算机可读存储介质
CN109902220A (zh) * 2019-02-27 2019-06-18 腾讯科技(深圳)有限公司 网页信息获取方法、装置和计算机可读存储介质
CN112231598A (zh) * 2020-08-31 2021-01-15 咪咕文化科技有限公司 网页路径导航方法、装置、电子设备及存储介质
CN114329216A (zh) * 2020-12-30 2022-04-12 谷歌有限责任公司 基于页面的用户意图的预测

Also Published As

Publication number Publication date
CN115827953B (zh) 2023-05-12

Similar Documents

Publication Publication Date Title
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
US8335787B2 (en) Topic word generation method and system
US7739220B2 (en) Context snippet generation for book search system
US20150154286A1 (en) Method for disambiguated features in unstructured text
US8745044B2 (en) Generating descriptions of matching resources based on the kind, quality, and relevance of available sources of information about the matching resources
US20220083874A1 (en) Method and device for training search model, method for searching for target object, and storage medium
US10394939B2 (en) Resolving outdated items within curated content
US20110219299A1 (en) Method and system of providing completion suggestion to a partial linguistic element
CN111325018B (zh) 一种基于web检索和新词发现的领域词典构建方法
US20210272013A1 (en) Concept modeling system
US20230087460A1 (en) Preventing the distribution of forbidden network content using automatic variant detection
WO2015084757A1 (en) Systems and methods for processing data stored in a database
US8799268B2 (en) Consolidating tags
US11379527B2 (en) Sibling search queries
US20170124090A1 (en) Method of discovering and exploring feature knowledge
US20150154265A1 (en) Search suggestions using fuzzy-score matching and entity co-occurrence
CN117539990A (zh) 一种问题处理方法、装置、电子设备和存储介质
US20160085760A1 (en) Method for in-loop human validation of disambiguated features
CN115827953B (zh) 用于网页数据抽取的数据处理方法、存储介质及电子设备
WO2023105282A1 (en) Systems and methods to search for digital twins
CN110941765A (zh) 搜索意图识别方法、信息搜索方法、装置及电子设备
CN112084290B (zh) 一种数据检索方法、装置、设备及存储介质
CN116069893A (zh) 数据检索方法、装置及相关设备
CN117851548A (zh) 一种问答模型训练方法、装置、设备及存储介质
CN117932134A (zh) 一种使用词条内容递归爬取词条数据的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant