CN114817639B - 基于对比学习的网页图卷积文档排序方法及系统 - Google Patents

基于对比学习的网页图卷积文档排序方法及系统 Download PDF

Info

Publication number
CN114817639B
CN114817639B CN202210542038.6A CN202210542038A CN114817639B CN 114817639 B CN114817639 B CN 114817639B CN 202210542038 A CN202210542038 A CN 202210542038A CN 114817639 B CN114817639 B CN 114817639B
Authority
CN
China
Prior art keywords
representation
webpage
sequence
graph
diagram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210542038.6A
Other languages
English (en)
Other versions
CN114817639A (zh
Inventor
任鹏杰
石超宇
任昭春
陈竹敏
颜强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202210542038.6A priority Critical patent/CN114817639B/zh
Publication of CN114817639A publication Critical patent/CN114817639A/zh
Application granted granted Critical
Publication of CN114817639B publication Critical patent/CN114817639B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/83Querying
    • G06F16/835Query processing
    • G06F16/8373Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/83Querying
    • G06F16/838Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • G06F40/146Coding or compression of tree-structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种基于对比学习的网页图卷积文档排序方法及系统,其属于网页文档排序技术领域,所述方案包括:获取待查询内容的向量表示以及待排序网页HTML序列;基于预先训练的序列编码模型,将所述HTML序列编码为若干标记信息组成的隐藏表示序列;基于位置索引从所述隐藏表示序列中提取网页标签表示,并基于单向图表示或对称图表示方法,以标签表示构建图节点,以网页DOM树中父节点与子节点之间的关系构建图的边,实现网页图的构建;基于关系图卷积神经网络对上所述网页图进行编码,获得网页图的向量表示;基于多层感知机方法,计算待查询内容向量表示与网页图的向量表示之间的相似度,并基于所述相似度大小实现相关网页的排序。

Description

基于对比学习的网页图卷积文档排序方法及系统
技术领域
本公开属于网页文档排序技术领域,尤其涉及一种基于对比学习的网页图卷积文档排序方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
文档排序是根据用户输入查询,检索得到一系列相关文档,并按照查询和文档的相关程度对文档列表进行排序的方法。文档排序在信息检索中占有非常重要的地位,它通过建模用户查询和文档集中的文档,以此学习并判别二者之间的关联关系,从而使搜索引擎返回更满足用户需求的文档。此外,利用这些技术的相关产品如今已被广泛应用于各大搜索引擎,如百度搜索,必应搜索,谷歌搜索等高效的搜索引擎满足了用户的信息需求,极大地便利了人们的生活。与此同时,随着大数据时代到来,文档规模持续扩大,为了充分挖掘数据背后的关联并提高检索效果,学术界和工业界对该任务广为关注。
发明人发现,在文档排序中,已有的方法有基于词项-文档矩阵(TF-IDF Matrix),神经排序模型(Neural Ranking Model),预训练语言模型(Pretrained Language Model)等,这些技术大多都面向纯文本格式的文档,对于结构化和半结构化数据处理不够充分。虽然已有方法通过计算查询与文档之间的共现关系,但由于这些方法将结构化、半结构数据全部转换为非结构化数据,从而导致文档原有信息的丢失,如列表信息、表格信息以及外链信息等,从而影响检索效果。例如:在网页web中,文档以超文本标记语言(HTML)的形式组织,HTML文档中包含了许多的标签元素,其中包含着文档结构信息,已有模型未能充分利用这些信息提升文档排序效果。
发明内容
本公开为了解决上述问题,提供了一种基于对比学习的网页图卷积文档排序方法及系统,所述方案能够有效解决结构化、半结构化文本未充分利用的问题,同时,结合网页中的标签信息,提高文档排序性能和指标。
根据本公开实施例的第一个方面,提供了一种基于对比学习的网页图卷积文档排序方法,包括:
获取待查询内容的向量表示以及待排序网页HTML序列;
基于预先训练的序列编码模型,将所述HTML序列编码为若干标记信息组成的隐藏表示序列;其中,所述标记信息包括文本表示和网页标签表示;
基于位置索引从所述隐藏表示序列中提取网页标签表示,并基于单向图表示或对称图表示方法,以标签表示构建图节点,以网页DOM树中父节点与子节点之间的关系构建图的边,实现网页图的构建;
基于关系图卷积神经网络对上所述网页图进行编码,获得网页图的向量表示;
基于多层感知机方法,计算待查询内容向量表示与网页图的向量表示之间的相似度,并基于所述相似度大小实现相关网页的排序。
进一步的,所述序列编码模型采用Longformer模型,通过预先训练的Longformer模型将HTML序列中的每个标记转换为相应的隐藏状态;其中,所述HTML序列中的文本信息经过Longformer模型被聚合到HTML标签表示中。
进一步的,所述单向图表示,具体包括:
将所述隐藏表示序列中成对的标签表示进行聚合,获得新的序列表示,其中,成对的标签表示聚合为唯一的标签表示;
将所述标签表示作为网页图的节点,基于网页DOM树结构,在其父节点和子节点之间构建图的边;在根节点和叶节点之间也构建边,且对于序列中存在多棵树的情况,将每棵树的根基点连接;获得单向网页图结构。
进一步的,所述对称图表示,具体包括:
基于隐藏表示序列中成对标签的左标签和右标签,分别替换所述单向网页图结构中的节点;获得对称的两个网页图;
在两个网页图对应的叶节点之间构建双向边,获得对称网页图。
进一步的,所述基于关系图卷积神经网络对上所述网页图进行编码,通过图卷积神经网络对网页图结构中不同边关系对节点的影响引入编码结果中。
进一步的,所述排序方法中的编码模型训练过程采用的损失函数具体包括:
掩蔽节点预测,其损失函数定义为:
其中,h为原始嵌入表示,hmask为掩码操作后的嵌入表示;
和,
父子节点建模,其损失函数定义为:
Ipcm=1-P(hparent|hchild)+P(hparent|hsample)
其中,hparent为父节点的编码表示,hchild为子节点的编码表示,hsample为子节点对应的负样例;
和,
兄弟节点预测,其损失函数定义为:
lsnp=1-P(hi|hj)+P(hi|hsample)
其中,hi与hj互为兄弟节点,hsample为兄弟节点对应的负样例;
和,
网页图对比建模,其损失函数定义为:
其中,zi为正样本,zj为负样本,sim()表示两个样本之间的相似度评分。
进一步的,在所述排序方法的编码模型训练过程中,还采用如下方式进行微调,具体包括:
基于交互式方法,具体为:
对文本对的编码层输出进行交互对比,得到统一的向量表征,并基于该表征向量,采用多层感知机对待查询内容和网页文档之间的相关性进行评分预测;
或,
基于表示的方法,具体为:
将待查询内容和网页文档进行嵌入编码,分别得到待查询内容和网页文档的向量表示,采用多层感知机对待查询内容和网页文档之间的相关性进行评分预测。
根据本公开实施例的第二个方面,提供了一种基于对比学习的网页图卷积文档排序系统,包括:
数据获取单元,其用于获取待查询内容的向量表示以及待排序网页HTML序列;
HTML序列编码单元,其用于基于预先训练的序列编码模型,将所述HTML序列编码为若干标记信息组成的隐藏表示序列;其中,所述标记信息包括文本表示和网页标签表示;
网页图构建单元,其用于基于位置索引从所述隐藏表示序列中提取网页标签表示,并基于单向图表示或对称图表示方法,以标签表示构建图节点,以网页DOM树中父节点与子节点之间的关系构建图的边,实现网页图的构建;
网页图编码单元,其用于基于关系图卷积神经网络对上所述网页图进行编码,获得网页图的向量表示;
排序单元,其用于基于多层感知机方法,计算待查询内容向量表示与网页图的向量表示之间的相似度,并基于所述相似度大小实现相关网页的排序。
根据本公开实施例的第三个方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,所述处理器执行所述程序时实现所述的一种基于对比学习的网页图卷积文档排序方法。
根据本公开实施例的第四个方面,提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的一种基于对比学习的网页图卷积文档排序方法及系统。
与现有技术相比,本公开的有益效果是:
(1)本公开提供了一种基于对比学习的网页图卷积文档排序方法及系统,所述方案基于构建的网页图结构,通过结合结构化文档中的特殊标签信息提高排序准确性,案能够有效解决结构化、半结构化文本未充分利用的问题,同时,结合网页中的标签信息,提高文档排序性能和指标。
(2)本公开所述方案在预训练阶段设计了四种预训练目标,包括掩码节点预测,父子关系建模,兄弟关系预测以及网页图对比建模,通过两种图建模方式挖掘网页中的结构信息,采用自监督的学习方式使模型在大量未标注数据中学习建模结构化文本,提高了模型的鲁棒性;在微调阶段,对比了基于交互式和基于表示的方法,对模型进行迁移学习和调优,达到了良好的文档排序效果。
本公开附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本公开的实践了解到。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开实施例中所述的基于对比学习的网页图卷积文档排序方法流程图;
图2为本公开实施例中所述的基于对比学习的网页图卷积文档排序所采用的模型结构示意图;
图3(a)为本公开实施例中所述的基于掩蔽节点预测的训练目标示意图;
图3(b)为本公开实施例中所述的基于父子节点建模的训练目标示意图;
图3(c)为本公开实施例中所述的基于兄弟节点预测的训练目标示意图;
图3(d)为本公开实施例中所述的基于网页图对比建模的训练目标示意图;
图4(a)为本公开实施例中所述的基于交互式方法的排序方式示意图;
图4(b)为本公开实施例中所述的基于表示方法的排序方式示意图。
具体实施方式
下面结合附图与实施例对本公开做进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
实施例一:
本实施例的目的是提供一种基于对比学习的网页图卷积文档排序方法。
如图1所示,一种基于对比学习的网页图卷积文档排序方法,包括:
获取待查询内容的向量表示以及待排序网页HTML序列;
基于预先训练的序列编码模型,将所述HTML序列编码为若干标记信息组成的隐藏表示序列;其中,所述标记信息包括文本表示和网页标签表示;
基于位置索引从所述隐藏表示序列中提取网页标签表示,并基于单向图表示或对称图表示方法,以标签表示构建图节点,以网页DOM树中父节点与子节点之间的关系构建图的边,实现网页图的构建;
基于关系图卷积神经网络对上所述网页图进行编码,获得网页图的向量表示;
基于多层感知机方法,计算待查询内容向量表示与网页图的向量表示之间的相似度,并基于所述相似度大小实现相关网页的排序。
进一步的,所述序列编码模型采用Longformer模型,通过预先训练的Longformer模型将HTML序列中的每个标记转换为相应的隐藏状态;其中,所述HTML序列中的文本信息经过Longformer模型被聚合到HTML标签表示中。
进一步的,所述单向图表示,具体包括:
将所述隐藏表示序列中成对的标签表示进行聚合,获得新的序列表示,其中,成对的标签表示聚合为唯一的标签表示;
将所述标签表示作为网页图的节点,基于网页DOM树结构,在其父节点和子节点之间构建图的边;在根节点和叶节点之间也构建边,且对于序列中存在多棵树的情况,将每棵树的根基点连接;获得单向网页图结构。
进一步的,所述对称图表示,具体包括:
基于隐藏表示序列中成对标签的左标签和右标签,分别替换所述单向网页图结构中的节点;获得对称的两个网页图;
在两个网页图对应的叶节点之间构建双向边,获得对称网页图。
进一步的,所述基于关系图卷积神经网络对上所述网页图进行编码,通过图卷积神经网络对网页图结构中不同边关系对节点的影响引入编码结果中。
进一步的,所述排序方法中的编码模型训练过程采用的损失函数具体包括:
掩蔽节点预测,其损失函数定义为:
其中,h为原始嵌入表示,hmask为掩码操作后的嵌入表示;
和,
父子节点建模,其损失函数定义为:
lpcm=1-P(hparent|hchild)+P(hparent|hsample)
其中,hparent为父节点的编码表示,hchild为子节点的编码表示,hsample为子节点对应的负样例;
和,
兄弟节点预测,其损失函数定义为:
lsnp=1-P(hi|hj)+P(hi|hsample)
其中,hi与hj互为兄弟节点,hsample为兄弟节点对应的负样例。
和,
网页图对比建模,其损失函数定义为:
其中,zi为正样本,zj为负样本,sim()表示两个样本之间的相似度评分。
进一步的,在所述排序方法的编码模型训练过程中,还采用如下方式进行微调,具体包括:
基于交互式方法,具体为:
对文本对的编码层输出进行交互对比,得到统一的向量表征,并基于该表征向量,采用多层感知机对待查询内容和网页文档之间的相关性进行评分预测;
或,
基于表示的方法,具体为:
将待查询内容和网页文档进行嵌入编码,分别得到待查询内容和网页文档的向量表示,采用多层感知机对待查询内容和网页文档之间的相关性进行评分预测。
具体的,为了便于理解,以下结合附图对本公开所述方案进行详细说明:
一种基于对比学习的网页图卷积文档排序方法,包括:
步骤1:获取待查询内容的向量表示以及待排序网页HTML序列;
步骤2:基于预先训练的序列编码模型,将所述HTML序列编码为若干标记信息组成的隐藏表示序列;其中,所述标记信息包括文本表示和网页标签表示;
具体的,所述序列编码模型采用Longformer模型,对于给定的输入序列S,序列编码器将S编码并输出为一个隐藏表示序列H,
H=HSEncoder(S) (1)
其中,ls为序列长度,dim为隐藏层维度,HSEncoder采用了预训练的Longformer模型。
步骤3:基于位置索引从所述隐藏表示序列中提取网页标签表示,并基于单向图表示或对称图表示方法,以标签表示构建图节点,以网页DOM树中父节点与子节点之间的关系构建图的边,实现网页图的构建;
其中,网页图G=(V,E,X)是由HTML序列编码器输出的一系列token构造而成,这些token包含了文本表示(Text Representation)和网页标签表示(HTML TagRepresentation),其中V表示图节点,E表示节点之间的边(如表1所示,展示了网页图中不同节点之间边的类型定义),X表示特征矩阵。首先,我们根据位置索引提取序列H中的HTML标签表示。我们采用两种方式将提取得到的序列转换为图G,如下所示:
(1)单向图:在构造图之前,序列首先通过一个表示聚合层。该层将序列中的所有成对节点表示聚合,并输出一个新的表示。公式化描述如下:
其中,i和j是是成对标签在输入序列中的位置索引,H1是输出表示,dim是隐藏层维度。通过表示聚合层,我们将每一对标签<tag>和</tag>聚合得到一个新的表示tag,这些标签作为图的节点V,图的节点表示共同构成了特征矩阵X。之后,我们遵循网页DOM(Document Object Model)树的结构,在父节点和子节点之间构建边E,同时,为了保证信息流的传递,我们在根节点和叶节点之间构建边,以避免DOM树太深导致信息无法有效传递,如图2左所示。对于一个序列中存在多棵树的情况,我们将每棵树的根节点连接起来形成一个图森林,以保证不同树之间的信息流通。其中,avg()为通用函数,即将标签对应元素相加除以2,例如:avg(H1,H2)=(H1+H2)/2。
(2)对称图:第二种图构建方式不经过表示聚合层,我们保留输入序列表示H的原始标签表示。其图构建方式与第一种大致相同,具体来说,我们分别使用左标签(<tag>)和右标签(</tag>)来替换单向图中的节点,得到对称的两个图。通过在叶节点对(如<li>和</li>)之间构建双向边,将以上两个图合并为一个对称图。对于序列中包含多棵树的图构造方法与单向图相同。
表1网页图中不同节点之间边的类型定义
步骤4:基于关系图卷积神经网络对上所述网页图进行编码,获得网页图的向量表示;
其中,对于所述单向图表示的网页图采用HTML单向图编码器,具体的,所述HTML单向图编码器仅包含了一个图编码层,图编码层采用关系图卷积神经网络编码输入图的结构信息,输出为每一个图节点的表示。
H′1=RGCN(G1) (3)
其中,G1是输入图,lg是输入图节点的数量,dim是隐藏层维度,RGCN(Relational graph convolutional network)是关系图卷积神经网络模型,该模型解决了利用GCN来处理图结构中不同边关系对节点的影响,将边关系考虑在内,本公开中对关系的定义方式如表1所示。
对于对称图表示的网页图采用HTML对称图编码器,具体的所述HTML对称图编码器包含了一个图编码层和一个表示聚合层。图编码层与HTML单向图编码器结构相同,随后,我们获得一系列图节点的表示。接下来的表示聚合层如序列到单向图的方式将节点表示合并。公式化描述如下:
H2=RGCN(G2) (4)
H′2=concat(avg(H2)) (5)
步骤5:基于多层感知机方法,计算待查询内容向量表示与网页图的向量表示之间的相似度,并基于所述相似度大小实现相关网页的排序。
进一步的,本实施例所述方法采用的编码模型需要预先进行训练,以下对其训练过程进行详细描述:
在预训练阶段,采用基于自监督的方式对模型进行训练,学习HTML序列中的结构信息,如标签之间的并列关系、层次关系和递进关系。编码输入序列(包括HTML标签和段落文本)的模型结构如图2所示,我们使用预先训练的Longformer模型将HTML序列中的每个标记转换为相应的隐藏状态。在这里,我们根据标签在序列中的位置索引提取标签的隐藏状态表示。
只使用标签而不使用文本信息的原因是,我们认为这里使用的标签类似于[CLS]特殊标记的使用,也就是说,文本信息在经过Longformer后被聚合到HTML标签。例如,对于输入“<p>text1 text2</p>”,在通过模型后只保留<p>和</p>的隐藏状态。因为Longformer中包含了双向注意力机制,因此<p>和</p>标签中均融合了text1和text2的文本信息。
H=Longformer(S),h=index(H0),h∈H (6)
我们提出四种预训练目标如下:
(1)掩蔽节点预测:
受BERT(Bidirectional Encoder Representation from Transformers)模型中掩码语言模型的启发,我们提出的掩码节点预测模型随机掩蔽一些输入中HTML标记,如图3(a)所示,其目标是根据上下文预测掩码节点的原始嵌入表示h=Mask(Encoder(S)),我们将原始嵌入表示与mask后的表示hmask=Mask(Encoder(Smask))进行相似度计算,我们使用余弦相似度损失,掩蔽后的序列为Smask=t0,t1,t2,...,tmask,...tn,掩蔽节点预测任务的损失函数定义描述如下:
(2)父子节点建模:
在web页面的DOM树中,有很多表示父子关系的标签,例如“<ul><li>text1</li><li>text2</li></ul>”中的ul为li标签的父节点。由于父节点的信息是由所有子节点构成的,我们提出利用这种关系来学习图节点之间的包含关系。如图3(b)所示,对于输入序列S=t0,t1,t2,...,ti,...tj,...,tn,我们随机选取一个子节点tj,其中ti是tj对应的父节点,编码后分别记为hparent,hchild
hparent,hchild=Mask(Encoder(S)) (8)
在此之后,我们在同一批数据中随机抽样另一个节点的向量表示作为子节点对应的负样例,记为hsample,我们使用pairwise损失函数,公式化描述如下:
lpcm=1-P(hparent|hchild)+P(hparent|hsample) (9)
(3)兄弟节点预测:
除了父子关系,兄弟关系在网页中也随处可见,如在序列“<li>text1</li><li>text2</li>”中li标签表示并列关系。如图3(c)所示,我们从序列S=t0,t1,t2,...,ti,...tj,...,tn中采样ti和tj,其中ti和tj拥有相同的直接父节点。同样的,我们在同一批数据中随机抽样另一个节点的向量表示作为子节点tj对应的负样例,记为hsample,使用pairwise损失函数,公式化描述如下:
lsnp=1-P(hi|hj)+P(hi|hsampla) (10)
(4)网页图对比建模:
如上文所述,在给定输入的HTML序列的前提下,HTML序列编码器输出每个标记的隐藏表示。接下来HTML图形编码器输出新的图节点表示。对于两个通道的输出(即单向图Graph1和对称图Graph2),我们使用对比学习的方法来计算损失。我们假设左右通道的输出分别为A1和A2,同一批的其他数据输出在为B1,B2(假设每批有2条数据),正样例对为(A1、A2),(B1、B2),负样例对为(A1,B1),(A1、B2),(A2,B1),(A2,B2)。我们按照如下公式计算对比学习损失。
其中,zi和zj分别表示正负样本,sim(zi,zj)表示zi和zj之间的相似度评分,此处选用余弦相似度;τ为温度系数,其作用为调节对困难样本的关注程度,在实验中为可人为调整的超参数。
进一步的,在所述微调阶段,我们采用了两种排序策略,分别为基于交互的排序方式和基于表示的排序方式。两种排序策略采用相同的输入,即我们将输入的query和document拼接为一个序列,二者之间使用特殊标记[SEP]分割,同时在序列开始处添加特殊标记[CLS],即S=[CLS]+query+[SEP]+document。
模型首先对输入进行嵌入获得文本的细粒度表示,并在嵌入的基础上进一步编码,公式化描述如下:
其中,H表示模型预测得到的每个token的表示,m和n分别为查询(query)和文档(document)包含的token数量。
(1)基于交互式的方法
在模型内部,对文本对的编码层输出进行交互、对比,得到统一的向量表征h[CLS],基于该表征向量,我们使用一个多层感知机对查询和文档之间的关系进行预测,得到一个相关分数。模型简要结构如图4(a)所示,公式化描述如下:
scoreq,d=MLP(hCLS),hCLS=CLS(Model(S)) (13)
其中,score表示查询和文档之间相关的概率,为一个0-1之间的数值;CLS(-)表示取输出张量中CLS位置对应的表征向量,Model表示我们在第三节中提出的模型。
(2)基于表示的方法
与基于交互式的方法不同的是,基于表示的方法将输入嵌入,编码,分别得到增强后的查询和文档向量表征和/>我们分别对查询和文档的每一个token嵌入进行平均池化操作,得到两个单独的768维的向量Hq和Hd,之后,我们使用一个多层感知机计算二者之间的相关性评分,模型结构如图4(b)所示,公式化描述如下:
scoreq,d=MLP(Hq,Hd) (15)
Hq和Hd分别表示查询和文档的聚合表示,AvgPooling表示平均池化操作。
实施例二:
本实施例的目的是提供一种基于对比学习的网页图卷积文档排序系统。
一种基于对比学习的网页图卷积文档排序系统,包括:
数据获取单元,其用于获取待查询内容的向量表示以及待排序网页HTML序列;
HTML序列编码单元,其用于基于预先训练的序列编码模型,将所述HTML序列编码为若干标记信息组成的隐藏表示序列;其中,所述标记信息包括文本表示和网页标签表示;
网页图构建单元,其用于基于位置索引从所述隐藏表示序列中提取网页标签表示,并基于单向图表示或对称图表示方法,以标签表示构建图节点,以网页DOM树中父节点与子节点之间的关系构建图的边,实现网页图的构建;
网页图编码单元,其用于基于关系图卷积神经网络对上所述网页图进行编码,获得网页图的向量表示;
排序单元,其用于基于多层感知机方法,计算待查询内容向量表示与网页图的向量表示之间的相似度,并基于所述相似度大小实现相关网页的排序。
进一步的,本实施例所述系统与实施例一中所述方法相对应,其相应的技术细节已经在实施例一中进行了详细描述,故此处不再赘述。
在更多实施例中,还提供:
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例一中所述的方法。为了简洁,在此不再赘述。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例一中所述的方法。
实施例一中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
上述实施例提供的一种基于对比学习的网页图卷积文档排序方法及系统可以实现,具有广阔的应用前景。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (7)

1.一种基于对比学习的网页图卷积文档排序方法,其特征在于,包括:
获取待查询内容的向量表示以及待排序网页HTML序列;
基于预先训练的序列编码模型,将所述HTML序列编码为若干标记信息组成的隐藏表示序列;其中,所述标记信息包括文本表示和网页标签表示;
所述序列编码模型采用Longformer模型,通过预先训练的Longformer模型将HTML序列中的每个标记转换为相应的隐藏状态;其中,所述HTML序列中的文本信息经过Longformer模型被聚合到HTML标签表示中;
基于位置索引从所述隐藏表示序列中提取网页标签表示,并基于单向图表示或对称图表示方法,以标签表示构建图节点,以网页DOM树中父节点与子节点之间的关系构建图的边,实现网页图的构建;
所述单向图表示,具体包括:
将所述隐藏表示序列中成对的标签表示进行聚合,获得新的序列表示,其中,成对的标签表示聚合为唯一的标签表示;
将所述标签表示作为网页图的节点,基于网页DOM树结构,在其父节点和子节点之间构建图的边;在根节点和叶节点之间也构建边,且对于序列中存在多棵树的情况,将每棵树的根基点连接;获得单向网页图结构;
所述对称图表示,具体包括:
基于隐藏表示序列中成对标签的左标签和右标签,分别替换单向网页图结构中的节点;获得对称的两个网页图;
在两个网页图对应的叶节点之间构建双向边,获得对称网页图;
基于关系图卷积神经网络对上所述网页图进行编码,获得网页图的向量表示;
基于多层感知机方法,计算待查询内容向量表示与网页图的向量表示之间的相似度,并基于所述相似度大小实现相关网页的排序。
2.如权利要求1所述的一种基于对比学习的网页图卷积文档排序方法,其特征在于,所述基于关系图卷积神经网络对上所述网页图进行编码,通过图卷积神经网络对网页图结构中不同边关系对节点的影响引入编码结果中。
3.如权利要求1所述的一种基于对比学习的网页图卷积文档排序方法,其特征在于,所述排序方法中的编码模型训练过程采用的损失函数具体包括:
掩蔽节点预测,其损失函数定义为:
其中,h为原始嵌入表示,hmask为掩码操作后的嵌入表示;
和,
父子节点建模,其损失函数定义为:
lpcm=1-P(hparent|hchild)+P(hparent|hample)
其中,hparent为父节点的编码表示,hchild为子节点的编码表示,hsample为子节点对应的负样例;
和,
兄弟节点预测,其损失函数定义为:
lsnp=1-P(hi|hj)+P(hi|hsample)
其中,hi与hj互为兄弟节点,hsample为兄弟节点对应的负样例;
和,
网页图对比建模,其损失函数定义为:
其中,zi为正样本,zj为负样本,sim()表示两个样本之间的相似度评分。
4.如权利要求1所述的一种基于对比学习的网页图卷积文档排序方法,其特征在于,在所述排序方法的编码模型训练过程中,还采用如下方式进行微调,具体包括:
基于交互式方法,具体为:
对文本对的编码层输出进行交互对比,得到统一的向量表征,并基于该向量表征,采用多层感知机对待查询内容和网页文档之间的相关性进行评分预测;
或,
基于表示的方法,具体为:
将待查询内容和网页文档进行嵌入编码,分别得到待查询内容和网页文档的向量表示,采用多层感知机对待查询内容和网页文档之间的相关性进行评分预测。
5.一种基于对比学习的网页图卷积文档排序系统,其特征在于,包括:
数据获取单元,其用于获取待查询内容的向量表示以及待排序网页HTML序列;
HTML序列编码单元,其用于基于预先训练的序列编码模型,将所述HTML序列编码为若干标记信息组成的隐藏表示序列;其中,所述标记信息包括文本表示和网页标签表示;
所述序列编码模型采用Longformer模型,通过预先训练的Longformer模型将HTML序列中的每个标记转换为相应的隐藏状态;其中,所述HTML序列中的文本信息经过Longformer模型被聚合到HTML标签表示中;
网页图构建单元,其用于基于位置索引从所述隐藏表示序列中提取网页标签表示,并基于单向图表示或对称图表示方法,以标签表示构建图节点,以网页DOM树中父节点与子节点之间的关系构建图的边,实现网页图的构建;
所述单向图表示,具体包括:
将所述隐藏表示序列中成对的标签表示进行聚合,获得新的序列表示,其中,成对的标签表示聚合为唯一的标签表示;
将所述标签表示作为网页图的节点,基于网页DOM树结构,在其父节点和子节点之间构建图的边;在根节点和叶节点之间也构建边,且对于序列中存在多棵树的情况,将每棵树的根基点连接;获得单向网页图结构;
所述对称图表示,具体包括:
基于隐藏表示序列中成对标签的左标签和右标签,分别替换单向网页图结构中的节点;获得对称的两个网页图;
在两个网页图对应的叶节点之间构建双向边,获得对称网页图;
网页图编码单元,其用于基于关系图卷积神经网络对上所述网页图进行编码,获得网页图的向量表示;
排序单元,其用于基于多层感知机方法,计算待查询内容向量表示与网页图的向量表示之间的相似度,并基于所述相似度大小实现相关网页的排序。
6.一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5任一项所述的一种基于对比学习的网页图卷积文档排序方法。
7.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5任一项所述的一种基于对比学习的网页图卷积文档排序方法及系统。
CN202210542038.6A 2022-05-18 2022-05-18 基于对比学习的网页图卷积文档排序方法及系统 Active CN114817639B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210542038.6A CN114817639B (zh) 2022-05-18 2022-05-18 基于对比学习的网页图卷积文档排序方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210542038.6A CN114817639B (zh) 2022-05-18 2022-05-18 基于对比学习的网页图卷积文档排序方法及系统

Publications (2)

Publication Number Publication Date
CN114817639A CN114817639A (zh) 2022-07-29
CN114817639B true CN114817639B (zh) 2024-05-10

Family

ID=82516010

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210542038.6A Active CN114817639B (zh) 2022-05-18 2022-05-18 基于对比学习的网页图卷积文档排序方法及系统

Country Status (1)

Country Link
CN (1) CN114817639B (zh)

Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101237465A (zh) * 2007-01-30 2008-08-06 中国科学院声学研究所 一种基于快速傅里叶变换的网页正文提取方法
CN101515272A (zh) * 2008-02-18 2009-08-26 株式会社理光 提取网页内容的方法和装置
CN101984434A (zh) * 2010-11-16 2011-03-09 东北大学 基于可扩展语言查询的网页数据抽取方法
CN102779169A (zh) * 2012-06-27 2012-11-14 江苏新瑞峰信息科技有限公司 一种基于html标签的网页正文提取方法及装置
CN103064956A (zh) * 2011-12-29 2013-04-24 微软公司 用于搜索电子内容的方法、计算系统和计算机可读介质
CN103186532A (zh) * 2011-12-27 2013-07-03 腾讯科技(北京)有限公司 网页中关键图片的抓取方法和装置
CN103365920A (zh) * 2012-04-09 2013-10-23 腾讯科技(深圳)有限公司 显示网页的方法、浏览器及移动终端
CN103678412A (zh) * 2012-09-21 2014-03-26 北京大学 一种文档检索的方法及装置
CN107220307A (zh) * 2017-05-10 2017-09-29 清华大学 网页搜索方法和装置
CN109271477A (zh) * 2018-09-05 2019-01-25 杭州数湾信息科技有限公司 一种借助互联网构建分类语料库的方法及系统
CN110321675A (zh) * 2018-03-29 2019-10-11 中移(苏州)软件技术有限公司 基于网页水印的生成、溯源方法及装置
CN110837347A (zh) * 2019-11-06 2020-02-25 王前 基于解析插件的网页打印方法、服务器及存储介质
CN111488953A (zh) * 2020-06-28 2020-08-04 浙江网新恒天软件有限公司 基于html源码特征对网页主题进行快速分类的方法
CN112148943A (zh) * 2020-09-27 2020-12-29 北京天融信网络安全技术有限公司 网页分类方法、装置、电子设备及可读存储介质
CN112667940A (zh) * 2020-10-15 2021-04-16 广东电子工业研究院有限公司 基于深度学习的网页正文抽取方法
CN113177393A (zh) * 2021-04-29 2021-07-27 思必驰科技股份有限公司 改进针对网页结构理解的预训练语言模型的方法和装置
CN113536182A (zh) * 2021-07-12 2021-10-22 广州万孚生物技术股份有限公司 长文本网页的生成方法、装置、电子设备和存储介质
CN113792144A (zh) * 2021-09-16 2021-12-14 南京理工大学 基于半监督的图卷积神经网络的文本分类方法
CN114090762A (zh) * 2022-01-21 2022-02-25 浙商期货有限公司 一种期货领域的自动问答方法和系统
CN114201581A (zh) * 2021-11-29 2022-03-18 中国科学院深圳先进技术研究院 一种基于对比学习的长文本检索模型
CN114417816A (zh) * 2021-12-28 2022-04-29 上海流利说信息技术有限公司 文本评分方法、文本评分模型、文本评分设备及存储介质
CN114461779A (zh) * 2021-12-28 2022-05-10 中科曙光南京研究院有限公司 一种案件笔录要素抽取方法

Patent Citations (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101237465A (zh) * 2007-01-30 2008-08-06 中国科学院声学研究所 一种基于快速傅里叶变换的网页正文提取方法
CN101515272A (zh) * 2008-02-18 2009-08-26 株式会社理光 提取网页内容的方法和装置
CN101984434A (zh) * 2010-11-16 2011-03-09 东北大学 基于可扩展语言查询的网页数据抽取方法
CN103186532A (zh) * 2011-12-27 2013-07-03 腾讯科技(北京)有限公司 网页中关键图片的抓取方法和装置
CN103064956A (zh) * 2011-12-29 2013-04-24 微软公司 用于搜索电子内容的方法、计算系统和计算机可读介质
CN103365920A (zh) * 2012-04-09 2013-10-23 腾讯科技(深圳)有限公司 显示网页的方法、浏览器及移动终端
CN102779169A (zh) * 2012-06-27 2012-11-14 江苏新瑞峰信息科技有限公司 一种基于html标签的网页正文提取方法及装置
CN103678412A (zh) * 2012-09-21 2014-03-26 北京大学 一种文档检索的方法及装置
CN107220307A (zh) * 2017-05-10 2017-09-29 清华大学 网页搜索方法和装置
CN110321675A (zh) * 2018-03-29 2019-10-11 中移(苏州)软件技术有限公司 基于网页水印的生成、溯源方法及装置
CN109271477A (zh) * 2018-09-05 2019-01-25 杭州数湾信息科技有限公司 一种借助互联网构建分类语料库的方法及系统
CN110837347A (zh) * 2019-11-06 2020-02-25 王前 基于解析插件的网页打印方法、服务器及存储介质
CN111488953A (zh) * 2020-06-28 2020-08-04 浙江网新恒天软件有限公司 基于html源码特征对网页主题进行快速分类的方法
CN112148943A (zh) * 2020-09-27 2020-12-29 北京天融信网络安全技术有限公司 网页分类方法、装置、电子设备及可读存储介质
CN112667940A (zh) * 2020-10-15 2021-04-16 广东电子工业研究院有限公司 基于深度学习的网页正文抽取方法
CN113177393A (zh) * 2021-04-29 2021-07-27 思必驰科技股份有限公司 改进针对网页结构理解的预训练语言模型的方法和装置
CN113536182A (zh) * 2021-07-12 2021-10-22 广州万孚生物技术股份有限公司 长文本网页的生成方法、装置、电子设备和存储介质
CN113792144A (zh) * 2021-09-16 2021-12-14 南京理工大学 基于半监督的图卷积神经网络的文本分类方法
CN114201581A (zh) * 2021-11-29 2022-03-18 中国科学院深圳先进技术研究院 一种基于对比学习的长文本检索模型
CN114417816A (zh) * 2021-12-28 2022-04-29 上海流利说信息技术有限公司 文本评分方法、文本评分模型、文本评分设备及存储介质
CN114461779A (zh) * 2021-12-28 2022-05-10 中科曙光南京研究院有限公司 一种案件笔录要素抽取方法
CN114090762A (zh) * 2022-01-21 2022-02-25 浙商期货有限公司 一种期货领域的自动问答方法和系统

Also Published As

Publication number Publication date
CN114817639A (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与系统
Hashemi et al. Query intent detection using convolutional neural networks
US11615246B2 (en) Data-driven structure extraction from text documents
JP7180009B2 (ja) 意味画像検索
CN113468888A (zh) 基于神经网络的实体关系联合抽取方法与装置
CN113392651B (zh) 训练词权重模型及提取核心词的方法、装置、设备和介质
WO2021042516A1 (zh) 命名实体识别方法、装置及计算机可读存储介质
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
Satpal et al. Web information extraction using markov logic networks
Zhang et al. Aspect-based sentiment analysis for user reviews
CN114896388A (zh) 一种基于混合注意力的层级多标签文本分类方法
CN116050397B (zh) 一种长文本摘要生成方法、系统、设备及存储介质
CN113515632A (zh) 基于图路径知识萃取的文本分类方法
CN114547230A (zh) 一种智能行政执法案例信息抽取和案由认定方法
Shan et al. Geographical address representation learning for address matching
Dong et al. Joint multi-label attention networks for social text annotation
CN114358020A (zh) 疾病部位识别方法、装置、电子设备及存储介质
Safar Digital library of online PDF sources: An ETL approach
Zhou et al. Learning transferable node representations for attribute extraction from web documents
CN114817639B (zh) 基于对比学习的网页图卷积文档排序方法及系统
Hua et al. A character-level method for text classification
CN116739402A (zh) 一种基于数据挖掘的健康画像构建方法
CN112765940B (zh) 一种基于主题特征和内容语义的网页去重方法
Liu et al. A semi-automated entity relation extraction mechanism with weakly supervised learning for Chinese Medical webpages
Zhu et al. Intelligent graph review system based on knowledge map

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant