CN116502644B - 一种基于无源领域自适应的商品实体匹配方法及装置 - Google Patents

一种基于无源领域自适应的商品实体匹配方法及装置 Download PDF

Info

Publication number
CN116502644B
CN116502644B CN202310761511.4A CN202310761511A CN116502644B CN 116502644 B CN116502644 B CN 116502644B CN 202310761511 A CN202310761511 A CN 202310761511A CN 116502644 B CN116502644 B CN 116502644B
Authority
CN
China
Prior art keywords
entity
commodity
samples
sample
pseudo tag
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310761511.4A
Other languages
English (en)
Other versions
CN116502644A (zh
Inventor
陈璐
曾晓灿
高云君
毛玉仁
汪鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202310761511.4A priority Critical patent/CN116502644B/zh
Publication of CN116502644A publication Critical patent/CN116502644A/zh
Application granted granted Critical
Publication of CN116502644B publication Critical patent/CN116502644B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Business, Economics & Management (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Finance (AREA)
  • Molecular Biology (AREA)
  • Accounting & Taxation (AREA)
  • Biomedical Technology (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于无源领域自适应的商品实体匹配方法和装置,属于商品实体匹配技术领域,本发明无需访问源域数据,基于目标域数据的语义特征生成可靠伪标签,基于所生成的伪标签,引入对比学习损失,并设计一种基于聚类的正负样本选择策略,对源域模型特征提取器进行微调优化。一方面,只利用源域模型而不访问源域数据可以确保数据安全,使其更加适用于实际应用场景。另一方面,基于目标域领域特定实体的语义信息生成伪标签,并融入源域模型信息进一步提升伪标签可靠性,从而实现有效、高效的商品实体匹配而无需人工标注训练样本。

Description

一种基于无源领域自适应的商品实体匹配方法及装置
技术领域
本发明属于商品实体匹配技术领域,尤其涉及一种基于无源领域自适应的商品实体匹配方法及装置。
背景技术
电商系统中,商品通常以结构化表格的形式存储。例如,每个电商平台会有一个包含各种商品信息的表格,如商品名称、价格、描述等等。然而,由于数据源之间的差异,不同数据源中相同商品的信息描述可能不同。因此,为了做进一步的数据分析,需要对两个不同来源的商品表格进行商品实体匹配,即找出两个表中指向同一现实世界商品实体的记录。例如,两个表中都有一款产品名为“iPhone 12”,但是它们的描述、价格等信息可能不同。商品实体匹配的目的就是通过比对这些信息,找出两个表中指向同一产品的记录。
传统的商品实体匹配方法大多基于监督学习,需要大量的人工标注数据,成本较高。因此,基于领域自适应的商品实体匹配近期受到了越来越多的关注,其能够利用大量的源域信息,从而减少目标域标注数据量和提高匹配性能。但是,目前现有的基于领域自适应的商品实体匹配方法均需要同时访问源域和目标域数据,由于数据隐私、存储、传输等问题,此类方法不适用于实际场景。因此,设计一种基于无源域领域自适应的商品实体匹配方法已经成为学术界和工业界的迫切需要。
在实现本发明的过程中,发明人发现现有技术中至少存在如下问题:
首先,现有的研究方法需要同时访问源域和目标域数据,存在相关数据安全问题,导致无法在实际场景中被广泛应用。此外,现在大多数实体匹配方法过度依赖人工标注的实体对作为训练数据,这一过程耗费大量人力,导致实体匹配效率低下。
发明内容
针对现有技术的不足,本申请实施例的目的是提供一种基于无源领域自适应的商品实体匹配方法及装置,无需访问源域隐私数据,也无需对目标域进行人工数据标注,实现准确且高效的商品实体匹配。
根据本申请实施例的第一方面,提供一种基于无源领域自适应的商品实体匹配方法,包括:
获取已在源域数据集上充分训练的源域模型和目标域上的两个结构化表格,其中每个所述结构化表格包括若干商品实体;
使用所述两个结构化表格,基于无监督对比学习微调预训练的句子表征模型,通过微调后的句子表征模型提取所述两个结构化表格中每个商品实体的语义表征;
根据所述两个结构化表格中每个商品实体的语义表征,计算两个表格之间的商品实体对相似度,并根据所述实体相似度进行基于信息熵的商品实体对的伪标签样本生成;
使用所述源域模型获取所述伪标签样本的置信度,基于所述置信度对所述伪标签样本进行重新加权;
基于所述伪标签样本,使用基于聚类的选择策略挑选正负样本;
冻结所述源域模型中的分类器,使用所述伪标签样本及其权重和正负样本,基于对比学习损失训练微调所述源域模型中的特征提取器;
使用微调后的源域模型,以目标域上的两个结构化表格为输入,得到商品实体匹配结果。
进一步地,使用所述两个结构化表格,基于无监督对比学习微调所述句子表征模型,通过微调后的句子表征模型提取所述两个结构化表格中每个商品实体的语义表征,包括:
将每个所述结构化表格中的每个商品实体转化为句子;
对于每一个商品实体,选择同一表格中的若干其他商品实体,作为其对应的简单负样本实体;
对于每一个商品实体,随机替换其中的包含重要信息的单词,将替换后形成的实体作为其对应的困难负样本实体;
利用原始的商品实体和对应的简单负样本实体、困难负样本实体,基于无监督对比学习架构,微调预训练的句子表征模型;
使用微调后的句子表征模型得到两个所述结构化表格中每个商品实体对应的语义嵌入向量作为其语义表征。
进一步地,根据所述两个结构化表格中每个商品实体的语义表征,计算两个表格之间的商品实体对相似度,并根据所述实体相似度进行基于信息熵的商品实体对伪标签生成,包括:
根据所述两个表格所有商品实体的语义特征,计算商品实体相似度矩阵;
对每个商品实体,选择另一个表格中与其相似度最高的N个候选商品实体作为候选实体集合;
对每个商品实体和其候选实体集合中的每个候选商品实体所构成的每个商品实体对,判断是否满足条件:所述商品实体是候选商品实体的相似度最高的实体,所述候选商品实体的候选实体集合中包含所述商品实体,若是,将该商品实体对的伪标签置为其所对应的候选实体集合的信息熵,若否,将该商品实体对的伪标签置为0。
进一步地,使用所述源域模型获取所述伪标签样本的置信度,基于所述置信度对所述伪标签样本进行重新加权,包括:
使用源域模型对所有伪标签样本进行预测,基于所述预测概率表示其置信度;
选择所有伪标签样本中预定比例的置信度最高的样本,将权重置为 1,其余伪标签样本的权重乘以衰减系数。
进一步地,使用一种基于聚类的选择策略挑选正负样本,包括:
对同一训练批次的样本,在嵌入空间中找到与每个样本相离最远的样本,统计每个样本作为最远样本的次数,选择次数最多的正样本和负样本各一个作为锚样本;
找到对应的最远样本是锚样本的其他样本,作为该锚样本的负例样本;
在嵌入空间中对伪标签样本进行二聚类,以两个聚类中心分别作为两个锚样本的正例样本。
进一步地,冻结所述源域模型中的分类器,使用所述伪标签样本及其权重和正负样本,基于对比学习损失训练微调所述源域模型中的特征提取器,包括:
冻结预训练的源域模型中的分类器,使用所生成的伪标签样本,训练微调所述源域模型中的特征提取器;
根据伪标签样本权重,计算样本和模型预测值之间的加权 KL 散度作为第一训练误差;
根据所述伪标签样本和所述正负样本,计算对比学习损失作为第二训练误差;
对所述第一训练误差和第二训练误差进行加权求和,得到总训练误差;
基于所述总训练误差,使用深度学习优化算法对所述特征提取器进行微调优化。
进一步地,使用微调后的源域模型,以目标域上的两个结构化表格为输入,得到商品实体匹配结果,包括:
将目标域上的每个结构化表格中的每个商品实体转化为句子;
使用微调后的源域模型,以转化后的商品句子作为输入,得到商品实体匹配结果。
根据本申请实施例的第二方面,提供一种基于无源领域自适应的商品实体匹配装置,包括:
获取模块,用于获取已在源域数据集上充分训练的源域模型和目标域上的两个结构化表格,其中每个所述结构化表格包括若干商品实体;
实体表征模块,用于使用所述两个结构化表格,基于无监督对比学习微调预训练的句子表征模型,通过微调后的句子表征模型提取所述两个结构化表格中每个商品实体的语义表征;
伪标签生成模块,用于据所述两个结构化表格中每个商品实体的语义表征,计算两个表格之间的商品实体对相似度,并根据所述实体相似度进行基于信息熵的商品实体对的伪标签样本生成;
伪标签加权模块,用于使用所述源域模型获取所述伪标签样本的置信度,基于所述置信度对所述伪标签样本进行重新加权;
聚类模块,用于基于所述伪标签样本,使用基于聚类的选择策略挑选正负样本;
模型微调模块,用于冻结所述源域模型中的分类器,使用所述伪标签样本及其权重和正负样本,基于对比学习损失训练微调所述源域模型中的特征提取器;
实体匹配模块,用于使用微调后的源域模型,以目标域上的两个结构化表格为输入,得到商品实体匹配结果。
根据本申请实施例的第三方面,提供一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的方法。
根据本申请实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如第一方面所述方法的步骤。
本申请的实施例提供的技术方案可以包括以下有益效果:
由上述实施例可知,本申请提出了一种基于无源领域自适应的商品实体匹配方法。本方法无需访问源域数据,基于目标域数据的语义特征生成可靠伪标签,基于所生成的伪标签,引入对比学习损失,并设计一种基于聚类的正负样本选择策略,对源域模型特征提取器进行微调优化。一方面,只利用源域模型而不访问源域数据可以确保数据安全,使其更加适用于实际应用场景。另一方面,基于目标域领域特定实体的语义信息生成伪标签,并融入源域模型信息进一步提升伪标签可靠性,从而实现有效、高效的商品实体匹配而无需人工标注训练样本。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是根据一示例性实施例示出的一种基于无源领域自适应的商品实体匹配方法的流程图。
图2是根据一示例性实施例示出的步骤S12的流程图。
图3是根据一示例性实施例列出的一种基于无源领域自适应的商品实体匹配方法的框架图。
图4是根据一示例性实施例示出的步骤S13的流程图。
图5是根据一示例性实施例示出的步骤S14的流程图。
图6是根据一示例性实施例示出的步骤S15的流程图。
图7是根据一示例性实施例示出的步骤S16的流程图。
图8是根据一示例性实施例示出的一种基于无源领域自适应的商品实体匹配装置的框图。
图9是根据一示例性实施例示出的一种电子设备的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
图1是根据一示例性实施例示出的一种基于无源领域自适应的商品实体匹配方法的流程图,如图1所示,该方法可以包括以下步骤:
S11:获取已在源域数据集上充分训练的源域模型和目标域上的两个结构化表格,其中每个所述结构化表格包括若干商品实体;
S12:使用所述两个结构化表格,基于无监督对比学习微调预训练的句子表征模型,通过微调后的句子表征模型提取所述两个结构化表格中每个商品实体的语义表征;
S13:根据所述两个结构化表格中每个商品实体的语义表征,计算两个表格之间的商品实体对相似度,并根据所述实体相似度进行基于信息熵的商品实体对的伪标签样本生成;
S14:使用所述源域模型获取所述伪标签样本的置信度,基于所述置信度对所述伪标签样本进行重新加权;
S15:基于所述伪标签样本,使用基于聚类的选择策略挑选正负样本;
S16:冻结所述源域模型中的分类器,使用所述伪标签样本及其权重和正负样本,基于对比学习损失训练微调所述源域模型中的特征提取器;
S17:使用微调后的源域模型,以目标域上的两个结构化表格为输入,得到商品实体匹配结果。
由上述实施例可知,本申请提出了一种基于无源领域自适应的商品实体匹配方法。本方法无需访问源域数据,基于目标域数据的语义特征生成可靠伪标签样本,引入对比学习损失,并设计一种基于聚类的正负样本选择策略,对源域模型特征提取器进行微调优化。一方面,只利用源域模型而不访问源域数据可以确保数据安全,使其更加适用于实际应用场景。另一方面,基于目标域领域特定实体的语义信息生成伪标签,并融入源域模型信息进一步提升伪标签可靠性,从而实现有效、高效的实体匹配而无需人工标注训练样本。
在S11的具体实施方式,获取已在源域数据集上充分训练的源域模型和目标域上的两个结构化表格,其中每个所述结构化表格包括若干商品实体;
具体地,本发明可以应用于电商系统中商品信息集成等实际领域。不失一般性地,对于模型的输入,本发明将源域模型定义为/>,/>表示特征提取器,/>表示分类器;源域和目标域分别指的是不同的数据来源,例如数据集A来源于公司A,称为源域,数据集B来源于公司B,称为目标域,使用数据集A所训练的商品实体匹配模型称为源域模型;每个表格/>,包括 />个商品实体。每个商品实体,包括 />个属性及其对应的值。例如,在电商领域中,实体是商品信息,其中的一个商品实体可以表示为{(标题:华为mate60),(商品描述:华为mate60手机,黑色,256GB),(价格:9999)}。定义完商品实体的表示之后,输入两个模式相同的结构化表格/>和/>,商品实体匹配任务旨在找到从/>到/>的一对一的商品实体匹配关系/>,即
在S12的具体实施方式,使用所述两个结构化表格,基于无监督对比学习微调预训练的句子表征模型,通过微调后的句子表征模型提取所述两个结构化表格中每个商品实体的语义表征;
具体地,预训练的句子表征模型能够具有丰富的语义信息,能够对每个商品实体进行初步表示。但是,由于该模型是在大量通用文本数据上进行预训练,对特定领域文本的表征仍然存在不足,因此步骤通过无监督对比学习来注入目标领域知识,增强实体的语义表征。在本步骤中,如图2所示,对每个所述结构化表格可以进行如下子步骤,从而增强商品实体表征:
S21:将每个所述结构化表格中的每个商品实体转化为句子;
在一实施例中,具体地,对于每个商品实体,通过拼接所有属性值,转化为一个句子/>
S22:对于每一个商品实体,选择同一表格中的若干其他商品实体,作为其对应的简单负样本实体;
在一实施例中,如图3所示,对于结构化表格 和/> 中的每一个商品实体,以同一表内的其他实体作为简单负样本。
S23:对于每一个商品实体,随机替换其中的包含重要信息的单词,将替换后形成的实体作为其对应的困难负样本实体;
在一实施例中,如图3所示,对于结构化表格和/> 中的每一个商品实体,可以计算 TF-IDF(term frequency-inverse document frequency,词频-逆文本频率指数),BM25等指标衡量商品实体中比较重要的单词,并将其替换为该领域内的其他随机单词,构造困难负样本,所述领域可以为类别、风格等等,例如某个电商数据集是一些手机的商品信息,它的领域可以是“手机”或者是“电子产品”,某个数据集是一些图书的商品信息,对应的领域可以是“图书”。
S24:利用原始的商品实体和对应的简单负样本实体、困难负样本实体,基于无监督对比学习,微调预训练的句子表征模型;
在一实施例中,如图3所示,所生成的负样本和原始实体样本一起组成训练样本,用于Sentence-BERT,BERT,ConSERT等句子表征模型的微调训练。具体地,可以使用通用的无监督对比学习架构MoCo(Momentum Contrast),以原始样本和生成的负样本作为输入,对句子表征模型进行微调。
S25:使用微调后的句子表征模型得到两个所述结构化表格中每个商品实体对应的语义嵌入向量;
在一实施例中,如图3所示,使用训练后的句子表征模型,将表格 和/> 中的每一个实体转化为嵌入向量,分别记为/>和/>
在S13的具体实施方式,根据所述两个结构化表格中每个商品实体的语义表征,计算两个表格之间的商品实体对相似度,并根据所述实体相似度进行基于信息熵的商品实体对伪标签样本生成;
具体地,如图4所示,此步骤可以包括以下子步骤:
S31:根据所述两个表格所有商品实体的语义特征,计算商品实体相似度矩阵;
具体地,如图3所示,利用所有商品实体的语义嵌入向量计算相似度矩阵,矩阵中的元素表示表格中的一个实体跟另一个表格的一个实体的相似度,具体地,可以使用余弦相似度,皮尔逊相关系数,欧几里得距离等方法计算实体相似度。
S32:对每个商品实体,选择另一个表格中与其相似度最高的N个候选商品实体作为对应的候选实体集合;
具体地,对每个商品实体,选择相似度前 N 大的实体作为候选实体集合,N可以根据不同的数据集和实验结果进行调整,通常选择N≤10。
S33:对每个商品实体和其候选实体集合中的每个候选商品实体所构成的每个商品实体对,判断是否满足条件:所述商品实体是候选商品实体的相似度最高的实体,所述候选商品实体的候选实体集合中包含所述商品实体,若是,将该商品实体对的伪标签置为其所对应的候选实体集合的信息熵,若否,将该商品实体对的伪标签值置为0;
具体地,若满足该条件,表示该商品实体对有比较大的概率是匹配的,因此对于实体,其候选实体集合为/>,候选实体集合所对应的相似度集合/>,相似度集合的熵/>,由于每个实体的熵/>的大小范围是不确定的,因此,将表格中所有实体的熵通过/>归一化到/>范围内,最后该商品实体对样本的伪标签为/>
若不满足该条件,该商品实体对样本的伪标签值为
在此步骤中,通过将商品实体对样本的伪标签置为不同值来构造训练样本。
在S14的具体实施方式,使用所述源域模型获取所述伪标签样本的置信度,基于所述置信度对所述伪标签样本进行重新加权;
具体地,如图5所示,此步骤可以包括以下子步骤:
S41:使用源域模型对所有伪标签样本进行预测,基于所述预测概率表示其置信度;
具体地,对于步骤S33生成的所有伪标签样本的集合,使用源域模型/>对其中的每个伪标签样本/>进行预测/>,并使用Softmax激活函数计算其置信度,即
S42:选择所有伪标签样本中预定比例的置信度最高的样本,将权重置为 1,其余伪标签样本的权重乘以衰减系数;
具体地,选择其中置信度前20%的伪标签样本,将其权重置为1,即当前权重,将其他样本的权重乘以衰减系数 />,即 />
在S15的具体实施方式,基于所述伪标签样本,使用基于聚类的选择策略挑选正负样本;
具体地,如图6所示,此步骤可以包括以下子步骤:
S51:对同一训练批次的伪标签样本,在嵌入空间中找到与每个伪标签样本相离最远的样本,统计每个样本作为最远样本的次数,选择次数最多的正样本和负样本各一个作为锚样本;
具体地,将所有伪标签样本的集合划分为若干训练批次,对于同一批次的伪标签样本的集合/>,可根据余弦相似度,欧几里得距离等方式计算样本之间的相似度,并统计每个样本作为最远样本的次数,分别选择一个次数最多的正样本(即该伪标签值大于0)/>和负样本(即该样本伪标签值等于0)/>作为锚样本;
S52:在嵌入空间中找到最远样本是所述锚样本的其他样本,作为该锚样本的负例样本;
对于锚样本 和/>,分别找到对应的最远样本是该锚样本的其他样本,作为锚样本的负例样本/>
S53:在嵌入空间中对伪标签样本进行二聚类,以两个聚类中心分别作为两个锚样本的正例样本;
使用KMeans算法,设置聚类数,对样本进行聚类,以锚样本所在的聚类分别对应的聚类中心作为正例样本/>
在S16的具体实施方式,冻结所述源域模型中的分类器,使用所述伪标签样本及其权重和正负样本,基于对比学习损失训练微调所述源域模型中的特征提取器;
具体地,如图7所示,此步骤可以包括以下子步骤:
S61:冻结预训练的源域模型中的分类器,使用所生成的伪标签样本,训练微调所述源域模型中的特征提取器;
具体地,即固定分类器 的模型参数,在训练过程中固定其参数不参与反向传播,只训练优化特征提取器 />的模型参数。
S62:根据伪标签样本权重,计算样本和模型预测值之间的加权 KL 散度作为第一训练误差;
具体地,对于当前批次样本,计算伪标签样本的权重和模型预测值之间的加权KL散度:
其中,表示伪标签样本权重,/>表示伪标签值,/>表示模型预测值。
S63:根据所述伪标签样本和所述正负样本,计算对比学习损失作为第二训练误差;
具体地,对于当前批次样本及其正负例样本,计算对比学习损失:
其中表示S51中所选择的锚样本,/>表示S53中锚样本对应的正例样本,/>表示S52和S53中锚样本对应的正例样本和负例样本。
S64:对所述第一训练误差和第二训练误差进行加权求和,得到总训练误差;
具体地,计算两部分误差的加权求和:
其中,的取值范围为/>,具体值可根据具体领域数据集进行调整。
S65:基于所述总训练误差,使用深度学习优化算法对所述特征提取器进行微调优化;
具体地,使用AdamW优化算法对模型进行优化,以加快模型收敛,提高整体效率。
在S17的具体实施方式,使用微调后的模型,以目标域上的两个结构化表格为输入,得到商品实体匹配结果;
具体地, 此步骤可以包括以下子步骤:
S71:将目标域上的每个结构化表格中的每个商品实体转化为句子;
具体地,可参考步骤S21,此处不进行赘述;
S72:使用优化后的模型,以转化后的商品句子作为输入,得到商品实体匹配结果。
具体地,参考步骤S41,当预测概率大于0.5,认为该商品实体对是匹配的,否则认为是不匹配的。
在商品实体匹配领域中,可以通过本方法对不同来源的结构化商品信息表格执行实体匹配任务。例如,来源于电商系统A的商品表格含有实体{(标题:华为mate60),(商品描述:华为mate60手机,黑色,256GB),(价格:9999)},来源于电商系统B的商品表格含有实体{(标题:华为手机|华为mate60手机),(描述:华为mate60手机,黑色|Black,RAM/256GB),(价格:¥9999)}。尽管两个实体描述不完全相同,但实际指向的是同一现实世界实体,即颜色为黑色,内存256GB的华为mate60手机。因此,可以通过本方法将两个表格的此实体进行匹配。
与前述的基于无源领域自适应的商品实体匹配方法的实施例相对应,本申请还提供了基于无源领域自适应的商品实体匹配装置的实施例。
图8是根据一示例性实施例示出的一种基于无源领域自适应的商品实体匹配装置的框图。参照图8,该装置可以包括:
获取模块21,用于获取已在源域数据集上充分训练的源域模型和目标域上的两个结构化表格,其中每个所述结构化表格包括若干商品实体;
实体表征模块22,用于使用所述两个结构化表格,基于无监督对比学习微调预训练的句子表征模型,通过微调后的句子表征模型提取所述两个结构化表格中每个商品实体的语义表征;
伪标签生成模块23,用于据所述两个结构化表格中每个商品实体的语义表征,计算两个表格之间的商品实体对相似度,并根据所述实体相似度进行基于信息熵的商品实体对的伪标签样本生成;
伪标签加权模块24,用于使用所述源域模型获取所述伪标签样本的置信度,基于所述置信度对所述伪标签样本进行重新加权;
聚类模块25,用于基于所述伪标签样本,使用基于聚类的选择策略挑选正负样本;
模型微调模块26,用于冻结所述源域模型中的分类器,使用所述伪标签样本及其权重和正负样本,基于对比学习损失训练微调所述源域模型中的特征提取器;
实体匹配模块27,用于使用微调后的源域模型,以目标域上的两个结构化表格为输入,得到商品实体匹配结果。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
相应的,本申请还提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的基于无源领域自适应的商品实体匹配方法。如图9所示,为本发明实施例提供的一种基于无源领域自适应的商品实体匹配方法所在任意具备数据处理能力的设备的一种硬件结构图,除了图9所示的处理器、内存、DMA控制器、磁盘、以及非易失内存之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
相应的,本申请还提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如上述的基于无源领域自适应的商品实体匹配方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是风力发电机的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(FlashCard)等。进一步的,所述计算机可读存储介还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。

Claims (9)

1.一种基于无源领域自适应的商品实体匹配方法,其特征在于,包括:
获取已在源域数据集上充分训练的源域模型和目标域上的两个结构化表格,其中每个所述结构化表格包括若干商品实体;
使用所述两个结构化表格,基于无监督对比学习微调预训练的句子表征模型,通过微调后的句子表征模型提取所述两个结构化表格中每个商品实体的语义表征;
根据所述两个结构化表格中每个商品实体的语义表征,计算两个表格之间的商品实体对相似度,并根据所述实体对相似度进行基于信息熵的商品实体对的伪标签样本生成;
使用所述源域模型获取所述伪标签样本的置信度,基于所述置信度对所述伪标签样本进行重新加权;
基于所述伪标签样本,使用基于聚类的选择策略挑选正负样本;
冻结所述源域模型中的分类器,使用所述伪标签样本及其权重和正负样本,基于对比学习损失训练微调所述源域模型中的特征提取器;
使用微调后的源域模型,以目标域上的两个结构化表格为输入,得到商品实体匹配结果;
其中,使用所述两个结构化表格,基于无监督对比学习微调所述句子表征模型,通过微调后的句子表征模型提取所述两个结构化表格中每个商品实体的语义表征,包括:
将每个所述结构化表格中的每个商品实体转化为句子;
对于每一个商品实体,选择同一表格中的若干其他商品实体,作为其对应的简单负样本实体;
对于每一个商品实体,随机替换其中的包含重要信息的单词,将替换后形成的实体作为其对应的困难负样本实体;
利用原始的商品实体和对应的简单负样本实体、困难负样本实体,基于无监督对比学习架构,微调预训练的句子表征模型;
使用微调后的句子表征模型得到两个所述结构化表格中每个商品实体对应的语义嵌入向量作为其语义表征。
2.根据权利要求1所述的方法,其特征在于,根据所述两个结构化表格中每个商品实体的语义表征,计算两个表格之间的商品实体对相似度,并根据所述实体对相似度进行基于信息熵的商品实体对伪标签生成,包括:
根据所述两个表格所有商品实体的语义特征,计算商品实体对相似度矩阵;
对每个商品实体,选择另一个表格中与其相似度最高的N个候选商品实体作为候选实体集合;
对每个商品实体和其候选实体集合中的每个候选商品实体所构成的每个商品实体对,判断是否满足条件:所述商品实体是候选商品实体的相似度最高的实体,所述候选商品实体的候选实体集合中包含所述商品实体,若是,将该商品实体对的伪标签置为其所对应的候选实体集合的信息熵,若否,将该商品实体对的伪标签置为0。
3.根据权利要求1所述的方法,其特征在于,使用所述源域模型获取所述伪标签样本的置信度,基于所述置信度对所述伪标签样本进行重新加权,包括:
使用源域模型对所有伪标签样本进行预测,基于所述预测概率表示其置信度;
选择所有伪标签样本中预定比例的置信度最高的样本,将权重置为 1,其余伪标签样本的权重乘以衰减系数。
4.根据权利要求1所述的方法,其特征在于,使用一种基于聚类的选择策略挑选正负样本,包括:
对同一训练批次的样本,在嵌入空间中找到与每个样本相离最远的样本,统计每个样本作为最远样本的次数,选择次数最多的正样本和负样本各一个作为锚样本;
找到对应的最远样本是锚样本的其他样本,作为该锚样本的负例样本;
在嵌入空间中对伪标签样本进行二聚类,以两个聚类中心分别作为两个锚样本的正例样本。
5.根据权利要求1所述的方法,其特征在于,冻结所述源域模型中的分类器,使用所述伪标签样本及其权重和正负样本,基于对比学习损失训练微调所述源域模型中的特征提取器,包括:
冻结预训练的源域模型中的分类器,使用所生成的伪标签样本,训练微调所述源域模型中的特征提取器;
根据伪标签样本权重,计算样本和模型预测值之间的加权 KL 散度作为第一训练误差;
根据所述伪标签样本和所述正负样本,计算对比学习损失作为第二训练误差;
对所述第一训练误差和第二训练误差进行加权求和,得到总训练误差;
基于所述总训练误差,使用深度学习优化算法对所述特征提取器进行微调优化。
6.根据权利要求1所述的方法,其特征在于,使用微调后的源域模型,以目标域上的两个结构化表格为输入,得到商品实体匹配结果,包括:
将目标域上的每个结构化表格中的每个商品实体转化为句子;
使用微调后的源域模型,以转化后的商品句子作为输入,得到商品实体匹配结果。
7.一种基于无源领域自适应的商品实体匹配装置,其特征在于,包括:
获取模块,用于获取已在源域数据集上充分训练的源域模型和目标域上的两个结构化表格,其中每个所述结构化表格包括若干商品实体;
实体表征模块,用于使用所述两个结构化表格,基于无监督对比学习微调预训练的句子表征模型,通过微调后的句子表征模型提取所述两个结构化表格中每个商品实体的语义表征;
伪标签生成模块,用于据所述两个结构化表格中每个商品实体的语义表征,计算两个表格之间的商品实体对相似度,并根据所述实体对相似度进行基于信息熵的商品实体对的伪标签样本生成;
伪标签加权模块,用于使用所述源域模型获取所述伪标签样本的置信度,基于所述置信度对所述伪标签样本进行重新加权;
聚类模块,用于基于所述伪标签样本,使用基于聚类的选择策略挑选正负样本;
模型微调模块,用于冻结所述源域模型中的分类器,使用所述伪标签样本及其权重和正负样本,基于对比学习损失训练微调所述源域模型中的特征提取器;
实体匹配模块,用于使用微调后的源域模型,以目标域上的两个结构化表格为输入,得到商品实体匹配结果;
其中,使用所述两个结构化表格,基于无监督对比学习微调所述句子表征模型,通过微调后的句子表征模型提取所述两个结构化表格中每个商品实体的语义表征,包括:
将每个所述结构化表格中的每个商品实体转化为句子;
对于每一个商品实体,选择同一表格中的若干其他商品实体,作为其对应的简单负样本实体;
对于每一个商品实体,随机替换其中的包含重要信息的单词,将替换后形成的实体作为其对应的困难负样本实体;
利用原始的商品实体和对应的简单负样本实体、困难负样本实体,基于无监督对比学习架构,微调预训练的句子表征模型;
使用微调后的句子表征模型得到两个所述结构化表格中每个商品实体对应的语义嵌入向量作为其语义表征。
8.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-6中任一项所述方法的步骤。
CN202310761511.4A 2023-06-27 2023-06-27 一种基于无源领域自适应的商品实体匹配方法及装置 Active CN116502644B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310761511.4A CN116502644B (zh) 2023-06-27 2023-06-27 一种基于无源领域自适应的商品实体匹配方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310761511.4A CN116502644B (zh) 2023-06-27 2023-06-27 一种基于无源领域自适应的商品实体匹配方法及装置

Publications (2)

Publication Number Publication Date
CN116502644A CN116502644A (zh) 2023-07-28
CN116502644B true CN116502644B (zh) 2023-09-22

Family

ID=87326990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310761511.4A Active CN116502644B (zh) 2023-06-27 2023-06-27 一种基于无源领域自适应的商品实体匹配方法及装置

Country Status (1)

Country Link
CN (1) CN116502644B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112308158A (zh) * 2020-11-05 2021-02-02 电子科技大学 一种基于部分特征对齐的多源领域自适应模型及方法
CN113807420A (zh) * 2021-09-06 2021-12-17 湖南大学 一种考虑类别语义匹配的域自适应目标检测方法及系统
CN115205570A (zh) * 2022-09-14 2022-10-18 中国海洋大学 一种基于对比学习的无监督跨域目标重识别方法
WO2023006224A1 (en) * 2021-07-30 2023-02-02 NEC Laboratories Europe GmbH Entity matching with joint learning of blocking and matching
CN116227578A (zh) * 2022-12-13 2023-06-06 浙江工业大学 一种无源域数据的无监督领域适应方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112308158A (zh) * 2020-11-05 2021-02-02 电子科技大学 一种基于部分特征对齐的多源领域自适应模型及方法
WO2023006224A1 (en) * 2021-07-30 2023-02-02 NEC Laboratories Europe GmbH Entity matching with joint learning of blocking and matching
CN113807420A (zh) * 2021-09-06 2021-12-17 湖南大学 一种考虑类别语义匹配的域自适应目标检测方法及系统
CN115205570A (zh) * 2022-09-14 2022-10-18 中国海洋大学 一种基于对比学习的无监督跨域目标重识别方法
CN116227578A (zh) * 2022-12-13 2023-06-06 浙江工业大学 一种无源域数据的无监督领域适应方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CollaborEM:A Self-supervised Entity Matching Framework Using Multi-features Collaboration;Conggong Ge等;《IEEE》;全文 *
Do We Really Need to Access the Source Data? Source Hypothesis Transfer for Unsupervised Domain Adaptation;Jian Liang 等;《arXiv》;第3-4节 *
基于深度学习的中文命名实体识别研究;王国昱;《中国优秀硕士学位论文全文数据库 信息科技辑 (月刊)》;全文 *

Also Published As

Publication number Publication date
CN116502644A (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
US11544474B2 (en) Generation of text from structured data
Li et al. Efficient optimization of performance measures by classifier adaptation
CN103248658A (zh) 服务推荐装置、服务推荐方法和移动设备
CN113434636B (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
CN116049412B (zh) 文本分类方法、模型训练方法、装置及电子设备
CN112434134B (zh) 搜索模型训练方法、装置、终端设备及存储介质
CN114186013A (zh) 实体识别模型热更新方法及其装置、设备、介质、产品
CN114218945A (zh) 实体识别方法、装置、服务器及存储介质
CN116822651A (zh) 基于增量学习的大模型参数微调方法、装置、设备及介质
Aziguli et al. A robust text classifier based on denoising deep neural network in the analysis of big data
CN113032601A (zh) 一种基于判别性提升的零样本草图检索方法
CN117114063A (zh) 用于训练生成式大语言模型和用于处理图像任务的方法
CN115062134A (zh) 知识问答模型训练及知识问答方法、装置和计算机设备
CN117558270A (zh) 语音识别方法、装置、关键词检测模型的训练方法和装置
CN116502644B (zh) 一种基于无源领域自适应的商品实体匹配方法及装置
CN116796730A (zh) 基于人工智能的文本纠错方法、装置、设备及存储介质
CN111858860B (zh) 搜索信息处理方法及系统、服务器、计算机可读介质
CN116719915A (zh) 智能问答方法、装置、设备及存储介质
CN115309905A (zh) 广告文本生成方法及其装置、设备、介质
CN116955763A (zh) 内容推荐方法、装置、计算机设备及计算机可读存储介质
CN110705287B (zh) 一种用于文本摘要的生成方法和系统
CN114357138A (zh) 一种问答识别的方法、装置、电子设备及可读存储介质
CN112597208A (zh) 企业名称检索方法、企业名称检索装置及终端设备
CN115114910B (zh) 文本处理方法、装置、设备、存储介质及产品
Huang et al. The study of web service discovery: A clustering and differential evolution algorithm approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant