CN116150432A - 数据记录的来源用户确定方法、装置、电子设备及介质 - Google Patents

数据记录的来源用户确定方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN116150432A
CN116150432A CN202211538988.8A CN202211538988A CN116150432A CN 116150432 A CN116150432 A CN 116150432A CN 202211538988 A CN202211538988 A CN 202211538988A CN 116150432 A CN116150432 A CN 116150432A
Authority
CN
China
Prior art keywords
data
storage
graph
data records
records
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211538988.8A
Other languages
English (en)
Inventor
赖李媛君
吴金旺
任磊
张霖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202211538988.8A priority Critical patent/CN116150432A/zh
Publication of CN116150432A publication Critical patent/CN116150432A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种数据记录的来源用户确定方法、装置、电子设备及介质。该方法包括:获取多个数据源中的多个数据记录,以及多个数据记录各自对应的数据属性;根据多个数据记录各自对应的数据属性,将多个数据记录存储至图存储空间;获取多个数据属性之间的预定关系,以基于预定关系在图存储空间中的多个存储节点之间添加边;采用表示学习算法将多个存储节点和边表示为空间向量,以基于多个空间向量之间的向量距离,确定多个数据记录的来源用户是否为同一用户。用以解决现有技术无法从不同数据源中确定相同身份的用户的问题,实现从不同数据源中确定相同身份的用户,以精准建立顾客肖像的技术效果。

Description

数据记录的来源用户确定方法、装置、电子设备及介质
技术领域
本申请涉及计算机技术,尤其涉及一种数据记录的来源用户确定方法、装置、电子设备及介质。
背景技术
在互联网市场营销、售后服务等环节,精准建立顾客肖像是一项至关重要的基本工作。为此,需要首先需要掌握顾客在各种网站的访问记录等数据,并以此推断顾客的喜好、需求,以便于在其下一次访问推送相关产品,或根据相关信息改变市场和生产策略,提高服务水平。
为了获得多渠道的产品使用者信息和记录,首先需要对产品使用者的访问记录进行定位,确定访问来源,但这对于一些产品使用者无需登录的场景而言是及其困难。
因此,需要从不同数据源中确定相同身份的用户(产品使用者)并对齐,实现用户身份解析任务,以精准建立顾客肖像。
发明内容
本申请提供一种数据记录的来源用户确定方法、装置、电子设备及存储介质,用以解决现有技术无法从不同数据源中确定相同身份的用户的问题,实现从不同数据源中确定相同身份的用户,以精准建立顾客肖像的技术效果。
一方面,本申请提供一种数据记录的来源用户确定方法,方法包括:
获取多个数据源中的多个数据记录,以及多个数据记录各自对应的数据属性,其中,对任意一个数据源,至少存在另一个数据源,二者之间有至少一个数据属性相同的数据记录;
根据多个数据记录各自对应的数据属性,将多个数据记录存储至图存储空间,其中,每个数据属性对应图存储空间的一个存储节点;
获取多个数据属性之间的预定关系,以基于预定关系在图存储空间中的多个存储节点之间添加边;
采用表示学习算法将多个存储节点和边表示为空间向量,以基于多个空间向量之间的向量距离,确定多个数据记录的来源用户是否为同一用户。
进一步地,根据多个数据记录各自对应的数据属性,将多个数据记录存储至图存储空间,包括:
根据数据属性拆分多个数据源中的多个数据记录,以得到每个数据属性对应的拆分后数据记录;
获取每个在图存储空间上该数据属性对应的存储节点;
将每个数据属性对应的拆分后数据记录,存储至图存储空间上该数据属性对应的存储节点上。
进一步地,方法还包括:
在图存储空间创建与每个数据记录对应的记录节点,其中,每个数据记录对应一个或多个存储节点;
在记录节点与数据记录对应的至少一个存储节点之间添加边。
进一步地,在根据多个数据记录各自对应的数据属性,将多个数据记录存储至图存储空间之后,方法还包括:
检测图存储空间是否存在重复的存储节点,其中,重复的存储节点为具有相同的数据属性及数据存储内容的存储节点;
将重复的存储节点合并为一个存储节点。
进一步地,每个存储节点对应一个实体,每一条边对应为所连接的第一实体和第二实体之间的预定关系,表示学习算法基于如下至少之一神经网络模型实现:平移模型、旋转模型、语义匹配模型、图卷积神经网络模型、预训练语言模型。
另一方面,本申请提供一种数据记录的来源用户确定装置,装置包括:
第二获取模块,用于获取多个数据源中的多个数据记录,以及多个数据记录各自对应的数据属性,其中,对任意一个数据源,至少存在另一个数据源,二者之间有至少一个数据属性相同的数据记录;
存储模块,用于根据多个数据记录各自对应的数据属性,将多个数据记录存储至图存储空间,其中,每个数据属性对应图存储空间的一个存储节点;
第二获取模块,用于获取多个数据属性之间的预定关系,以基于预定关系在图存储空间中的多个存储节点之间添加边;
确定模块,用于采用表示学习算法将多个存储节点和边表示为空间向量,以基于多个空间向量之间的向量距离,确定多个数据记录的来源用户是否为同一用户。
进一步地,存储模块,包括:
拆分子单元,用于根据数据属性拆分多个数据源中的多个数据记录,以得到每个数据属性对应的拆分后数据记录;
获取子单元,用于获取每个在图存储空间上该数据属性对应的存储节点;
存储子单元,用于将每个数据属性对应的拆分后数据记录,存储至图存储空间上该数据属性对应的存储节点上。
进一步地,装置还包括:
创建模块,用于在图存储空间创建与每个数据记录对应的记录节点,其中,每个数据记录对应一个或多个存储节点;
添加模块,用于在记录节点与数据记录对应的至少一个存储节点之间添加边。
进一步地,在根据多个数据记录各自对应的数据属性,将多个数据记录存储至图存储空间之后,方法还包括:
检测图存储空间是否存在重复的存储节点,其中,重复的存储节点为具有相同的数据属性及数据存储内容的存储节点;
将重复的存储节点合并为一个存储节点。
进一步地,每个存储节点对应一个实体,每一条边对应为所连接的第一实体和第二实体之间的预定关系,表示学习算法基于如下至少之一神经网络模型实现:平移模型、旋转模型、语义匹配模型、图卷积神经网络模型、预训练语言模型。
另一方面,本申请提供一种电子设备,包括:处理器,以及与上述处理器连接的存储器;上述存储器存储计算机执行指令;上述处理器执行上述存储器存储的计算机执行指令,以实现如任一项上述的方法。
另一方面,本申请提供一种计算机可读存储介质,上述计算机可读存储介质中存储有计算机执行指令,上述计算机执行指令被处理器执行时用于实现如任一项上述的方法。
另一方面,本申请提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现任一项上述的方法。
本申请提供的数据记录的来源用户确定方法、装置、电子设备及存储介质,通过获取多个数据源中的多个数据记录,以及多个数据记录各自对应的数据属性,其中,对任意一个数据源,至少存在另一个数据源,二者之间有至少一个数据属性相同的数据记录;根据多个数据记录各自对应的数据属性,将多个数据记录存储至图存储空间,其中,每个数据属性对应图存储空间的一个存储节点;获取多个数据属性之间的预定关系,以基于预定关系在图存储空间中的多个存储节点之间添加边;采用表示学习算法将多个存储节点和边表示为空间向量,以基于多个空间向量之间的向量距离,确定多个数据记录的来源用户是否为同一用户。用以解决现有技术无法从不同数据源中确定相同身份的用户的问题,实现从不同数据源中确定相同身份的用户,以精准建立顾客肖像的技术效果。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1为本申请实施例提供的一种数据记录的来源用户确定方法的流程示意图;
图2为本申请实施例提供的一种可选的数据记录的来源用户确定方法的流程示意图;
图3为本申请实施例提供的一种将数据记录存储至图存储空间的场景示意图;
图4为本申请实施例提供的一种数据记录的来源用户确定装置的结构框图;
图5为本申请实施例提供的一种电子设备的结构示意图。
通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
身份解析是从不同信息渠道中,找到相同身份的产品使用者并对齐的任务。为了实现身份解析任务,已有许多现有方法,这些方法作用于记录或记录中的某一项属性,并匹配出相同来源的记录。其中,第一类方法主要将不同记录通过人工设定的规则进行直接匹配;第二类方法对不同的记录或其中的属性计算相似度,并通过相似度进行匹配;第三类方法通过关系推理的方式得出记录可能的来源。
第一类方法,例如传统的身份解析方法,是通过预设规则直接进行匹配,这种方法最为简单和自然。这种方法首先要求两条记录的模式至少有部分交集,即它们至少包含一部分相同类别的属性,如产品使用者的姓名、邮箱、手机号、地址等中的一部分(但这部分内容不完全一致,否则可以直接进行匹配)。
第一类方法的缺陷是:第一,依赖于专家的设计,该身份解析方法几乎完全依赖于专家设计的规则,如果设计的规则较差,匹配的结果将相当差。第二,无法完全覆盖所有的范式,人工设计的规则难以覆盖所有类型,这决定了这种方法必定有所缺陷。第三,缺乏迁移能力,所有规则只能针对当前数据集进行构建,在另一个数据集具有不同模式的数据集中则可能需要重新设计规则。
第二类方法,例如基于相似度的身份解析方法,是通过一定的方法计算记录间的相似度,认为高于一定相似度的记录来源于同一产品使用者。根据计算相似度的方式不同,典型的利用相似度的身份解析方法有基于同义词集和语义验证的方法,基于机器学习和主动学习的方法。
上述第二类方法的缺陷是:第一,仅能处理文本类型的属性,因为所有的相似度计算函数全部是基于文本的同义或反义,对于非文本类型的属性无法计算。第二,需要一定的人工标注,附带验证的本体自动语义匹配方法ASMOV(Automated Semantic Matching ofOntologies with Verification)需要人工构建同义词集和反义词集,基于机器学习和主动学习的方法也需要一定的有标签数据,这些都需要人工的标注。
第三类方法,例如,采用一条记录包含的各属性间,以及属性与产品使用者间都存在一定的关系,可以利用两条数据记录的关系之间的语义等价性来推理记录之间是否等价。关系、实例和架构的概率对齐方法PARIS(Probabilistic Alignment of Relations,Instances,and Schema)是其中一种典型方法,它将关系进行函数化,进一步基于关系推理原则进行概率计算,将实体对齐概率化,进而实现实体的对齐任务。其中,实体是关系连接的属性、记录或产品使用者的统称。
上述第二类方法的缺陷是:只能处理一对一的关系,例如,如果在某个关系下,一个头实体可对应多个尾实体,或者多个头实体可对应一个尾实体,如产品使用者可具有多个手机号,则无法进行推理和匹配。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
为解决上述技术问题,本申请实施例提供一种的数据记录的来源用户确定方法,图1是本发明实施例所提供的一种数据记录的来源用户确定方法的流程示意图,如图1所示,该方法包括:
S101,获取多个数据源中的多个数据记录,以及多个数据记录各自对应的数据属性,其中,对任意一个数据源,至少存在另一个数据源,二者之间有至少一个数据属性相同的数据记录。
S102,根据多个数据记录各自对应的数据属性,将多个数据记录存储至图存储空间,其中,每个数据属性对应图存储空间的一个存储节点。
S103,获取多个数据属性之间的预定关系,以基于预定关系在图存储空间中的多个存储节点之间添加边。
S104,采用表示学习算法将多个存储节点和边表示为空间向量,以基于多个空间向量之间的向量距离,确定多个数据记录的来源用户是否为同一用户。
本申请实施例所提供的数据记录的来源用户确定方法,可以用于在互联网市场营销、售后服务等环节,建立顾客肖像的场景中。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
可选的,本申请实施例中,确定不同数据记录的来源用户,即属于一种用户身份解析任务。通过掌握顾客在各种网站的访问记录等数据,并以此推断顾客的喜好、需求,以便于在其下一次访问推送相关产品,或根据相关信息改变市场和生产策略,提高服务水平。
可选的,多个数据源是指不同数据渠道(例如,不同购物网站)的数据源,每个数据源中包含了产品使用者的网页访问记录,或提交的工单、邮件等信息,这些信息统称为数据记录。
可选的,上述数据属性包括但不限于:姓名、邮箱、手机号、地址等,其中,对任意一个数据源,至少存在另一个数据源,二者之间有至少一个数据属性相同的数据记录。需要说明的是,本申请实施例并不要求没有任意两个都必须有相同属性,实际只需存在两个数据记录之间有属性交集即可。
可选的,一条数据记录包含的一个或者多个数据属性。
例如,每一条数据记录可以包含产品使用者的姓名、邮箱、手机号等个人信息中的一条或多条,这些信息可称为该产品使用者的数据属性,每条数据记录包含的属性类别的集合也称为该数据记录的模式,目标则是利用从来自不同渠道的数据记录中包含的数据属性,锁定每条数据记录的来源用户,也即是网页访问的产品使用者。
本申请实施例中,通过基于数据属性作为存储节点,构建得到图存储空间,具体的,在图存储空间中,每个数据属性对应图存储空间的一个存储节点,可以将根据多个数据记录各自对应的数据属性,将多个数据记录存储至图存储空间。
之后,获取预先构建的多个数据属性之间的预定关系,以基于预定关系在图存储空间中的多个存储节点之间添加边。进而,可以采用表示学习算法将多个存储节点和边表示为空间向量,以基于多个空间向量之间的向量距离,确定多个数据记录的来源用户是否为同一用户。
一条数据记录包含的各个数据属性之间,以及数据属性与产品使用者间都存在预定关系,可以利用两条数据记录的预定关系之间的语义等价性来推理两条数据记录之间是否等价。
一种可选的实施例中,每个存储节点对应一个实体,每一条边对应为所连接的第一实体和第二实体之间的预定关系,可选的,第一实体为头实体,第二实体为尾实体,同理,第二实体可以为头实体,第一实体为尾实体。
可选的,在某个预定关系下,一个头实体可对应一个尾实体,例如,某一产品使用者具有一个真实姓名。在某个预定关系下,一个头实体可对应多个尾实体,或者多个头实体可对应一个尾实体,如某一产品使用者可具有多个手机号,多个收货地址等等。
本发明实施例所提出的表示学习方法,可以为专用于图类型数据的一类方法,例如,表示学习算法基于如下至少之一神经网络模型实现:平移模型、旋转模型、语义匹配模型、图卷积神经网络模型、预训练语言模型。
本申请实施例中,表示学习方法将图中的所有节点和边转化为分布式向量的形式,分布式向量具有多个维度,每个维度代表由相关算法提取出的一个特征。在向量空间中距离更近的向量更加相似,当距离接近一定程度时,认为二者相同。通过表示学习方法,可以获得到图空间中所有相同的属性节点,并可认为它们来源的记录属于同一产品使用者,即可实现产品使用者的身份解析。
本发明实施例旨在建立一种基于表示学习的产品使用者身份解析方法,针对不同渠道来源的数据记录混乱,产品使用者身份不明的现象,将不同渠道的来源的数据记录存储至同一个图存储空间进行管理,并利用表示学习方法进行数据对齐。
不同渠道来源的数据记录一般具有不同的数据属性,不同的数据属性的数据记录之间,所采用的对齐算法一般有所不同,这导致算法设计极其复杂且难以具有移植性。因此,本申请实施例首先需要对多个数据源的数据记录进行处理,以统一利用表示学习算法进行对齐,例如,利用表示学习算法将每条数据记录转化为一个分布式向量,分布式向量表明了数据记录的特征。在空间中距离越近的向量,则它们的相似度越高,即可实现产品使用者身份的解析。
另一种示例中,根据多个数据记录各自对应的数据属性,将多个数据记录存储至图存储空间,包括:
S201,根据数据属性拆分多个数据源中的多个数据记录,以得到每个数据属性对应的拆分后数据记录。
S202,获取每个在图存储空间上该数据属性对应的存储节点。
S203,将每个数据属性对应的拆分后数据记录,存储至图存储空间上该数据属性对应的存储节点上。
如图2所示的多个数据源,数据源1,数据源2,…,数据源n,以两个数据源的匹配为例,首先假定数据源1为x(1),具有属性
Figure BDA0003978818750000091
记作/>
Figure BDA0003978818750000092
同理,数据源2记作/>
Figure BDA0003978818750000093
Figure BDA0003978818750000094
表示数据源k中的第j条数据的属性/>
Figure BDA0003978818750000095
的具体内容,
Figure BDA0003978818750000096
同理,两数据源至少存在一个相同属性,即要求:/>
Figure BDA0003978818750000097
此外,多个数据源的情况类似,但要求不能有数据源的所有属性全部孤立于其他所有数据源,即:
Figure BDA0003978818750000098
不同数据源的数据记录一般具有不同的模式,即它们的数据属性不完全相同,对于具有不同模式的数据记录的需要采用不同的算法,这极大的增加了算法设计的工作量。此外,如果存储时不同数据属性的数据记录需要分类存储,无疑会提高数据检索的难度。为此,如图2所示,本发明实施例将用户数据的最小存储结构,由单条数据记录按照数据属性进行拆分,并将其存储在图数据库中,即存储至图存储空间中,便于后续的管理与存储。
具体来说,如图3所示,图中以第k个数据源的第j条记录为例,它包含了m个数据属性,本发明实施例无需考虑数据记录的数据源,而是将每条数据记录按照数据属性进行拆分,得到每个数据属性对应的拆分后数据记录,并将每个数据属性作为图存储空间中的一个存储节点,可以将数据属性相同的拆分后的数据记录存储在一个存储节点上。
另一种示例中,上述方法还包括:
S301,在图存储空间创建与每个数据记录对应的记录节点,其中,每个数据记录对应一个或多个存储节点。
S302,在记录节点与数据记录对应的至少一个存储节点之间添加边。
一种示例中,按照数据属性将每条数据记录进行拆分,并将数据属性作为最小的存储结构单位,即将每个数据属性单独作为图存储空间中的一个存储节点,也可以称之为属性节点。并且,本申请实施例中,在图存储空间中额外创建记录节点
Figure BDA0003978818750000101
可以考虑数据属性之间的预定关系,利用预定关系在图存储空间为存储节点之间添加边,同时为记录节点与存储节点之间也添加上边。
一种可选的实施例中,在根据多个数据记录各自对应的数据属性,将多个数据记录存储至图存储空间之后,上述方法还包括:
S401,检测图存储空间是否存在重复的存储节点,其中,重复的存储节点为具有相同的数据属性及数据存储内容的存储节点。
S402,将重复的存储节点合并为一个存储节点。
需要注意的是,本申请实施例中的图存储空间是一个异质图,即图存储空间中的节点与边各自有不同的类型,其类型取决于属性本身的类型。图存储空间中的每一个节点可以认为对应一个实体,每一条边则是实体之间的关系。
此外,取决于具体情况,记录节点与属性节点之间的边有如下两种连接方式,例如:记录节点与该条记录内的所有属性节点相连;再例如,记录节点仅与属性节点中较为重要的一个相连。其中,重要指的是该节点更能反映产品使用者的本人特征,或与其它节点之间有更多的连接。
在将拆分后的数据记录存储到图存储空间后,可进一步将重复节点进行合并。重复节点是指具有相同的属性类型和内容的节点,且该数据属性应当具有一定的专有性,即重名节点必须仅能指向现实中的同一实体。该合并步骤也可于在将拆分后的数据记录存储到图存储空间时进行完成,即创建节点时进行重复性检验。
利用上述方法创建了图数据库之后,进一步利用表示学习方法进行产品使用者身份解析。
本发明所指的表示学习方法是专用于图类型数据的一类方法,它将图存储空间中的所有节点和边,转化为分布式向量(空间向量)的形式,分布式向量具有多个维度,每个维度代表提取出的一个特征,在向量空间中距离更近的向量更加相似,当距离接近一定程度时,认为二者相同。
仍如图2所示,通过采用表示学习方法进行向量距离计算,以进行节点匹配,可以获得到图存储空间中所有相同的属性节点,并可认为它们来源的记录属于同一产品使用者,即确定节点归属,可实现产品使用者的身份解析。
可选的,判断向量空间中两向量之间距离的方法,可以是欧几里得距离,曼哈顿距离或其他方法定义的距离。
Figure BDA0003978818750000111
d=|x1-y1|+|x2-y2|+...+|xn-yn|。
此外,还存在一种可选的实施例,本发明的表示学习方法包括但不限于以下的任意一种方法或其衍生方法:
平移模型:该方法假定存在关系的头实体和尾实体之间存在平移关系,则将头实体的头实体向量(头实体的空间向量)与预定关系的关系向量(预定关系的空间向量)的加和,作为尾实体的尾实体向量(尾实体的空间向量);其中,通过机器学习的方法使得所有实体与关系的向量最大程度的符合这一规则。
旋转模型:该方法假定存在关系的头实体和尾实体之间存在旋转关系,在复数空间中,则将头实体的头实体向量与预定关系的关系向量的乘积,作为尾实体的尾实体向量;其中,通过机器学习的方法使得所有实体与关系的向量最大程度的符合这一规则。
语义匹配模型:该方法假定关系对头尾实体之间存在一定的匹配作用,并假定关系为一对角线矩阵,头实体向量、关系矩阵和尾实体向量的乘积应当尽可能大,通过机器学习的方法使得所有实体向量与关系矩阵最大程度的符合这一规则。
图卷积神经网络模型GCN:GCN是一种针对图结构的神经网络模型。图卷积神经网络通过聚合和传播提取图存储空间中节点和边的特征,并可以对每个节点或边形成一个空间向量。
预训练语言模型PLM:PLM是一种预先用大量文本训练好的神经网络模型,它可以准确对文本类型的节点或边进行编码,生成空间向量。
本申请实施例,可以利用上述的一种或几种方法对存储节点和边生成空间向量,并借助欧几里得距离、曼哈顿距离或其他定义的距离实现节点相似或相同的判断,进一步形成记录相似或相同的判断。
在形成数据记录的匹配之后,将进一步对收集记录所属的存储节点进行合并,以维护图存储空间,并用于后续的使用和分析。例如,可以执行以下操作:将所有名称重复的节点进行合并,新节点将包含原有旧节点的所有关系;按照规则,新建立节点之间的部分关系。
为了解决身份解析任务中,不同模式的数据需要设计不同的匹配方式的问题,本发明将不同模式的数据统一存储到同一图空间中,化整为零,仅需考虑不同数据中存在的属性类型,极大的降低了设计算法的工作量。
本申请实施例,还提出利用表示学习方法,将图存储空间中的节点和边都表示为向量,再利用向量间的距离进行匹配的方法,极大的提高了匹配的效率。同时仅需人工对各种数据属性之间指定少量的关系规则,相比原有方法所需的人工制定大量匹配规则或标注大量数据,极大的减少了人力。并且已有的多种表示学习方法可以覆盖几乎所有类型的数据,多种方法的结合可以进一步提高身份解析的正确率。
充分考虑身份解析中多渠道模式相异数据设计算法困难的问题,将数据按照属性存入图数据库进行管理,这使得后续算法仅需对这一图空间中的节点和边进行处理。
在上述基础上利用多种表示学习方法,将图空间中的每个节点和边转化为向量,并利用节点向量之间的距离进行节点的匹配,最终实现记录的匹配和产品使用者身份的解析。此外,获得的节点和关系的向量还可用于一部分下游任务,如推荐系统。
根据本申请的一个或多个实施例,提供了一种数据记录的来源用户确定装置,图4为本申请实施例提供的一种数据记录的来源用户确定装置的结构框图,如图4所示,上述数据记录的来源用户确定装置400包括:
第一获取模块401,用于获取多个数据源中的多个数据记录,以及多个数据记录各自对应的数据属性,其中,对任意一个数据源,至少存在另一个数据源,二者之间有至少一个数据属性相同的数据记录;
存储模块402,用于根据多个数据记录各自对应的数据属性,将多个数据记录存储至图存储空间,其中,每个数据属性对应图存储空间的一个存储节点;
第二获取模块403,用于获取多个数据属性之间的预定关系,以基于预定关系在图存储空间中的多个存储节点之间添加边;
确定模块404,用于采用表示学习算法将多个存储节点和边表示为空间向量,以基于多个空间向量之间的向量距离,确定多个数据记录的来源用户是否为同一用户。
根据本申请的一个或多个实施例,存储模块,包括:
拆分子单元,用于根据数据属性拆分多个数据源中的多个数据记录,以得到每个数据属性对应的拆分后数据记录;
获取子单元,用于获取每个在图存储空间上该数据属性对应的存储节点;存储子单元,用于将每个数据属性对应
的拆分后数据记录,存储至图存储空间上该数据属性对应的存储节点上。
根据本申请的一个或多个实施例,装置还包括:
创建模块,用于在图存储空间创建与每个数据记录对应的记录节点,其中,每个数据记录对应一个或多个存储节点;
添加模块,用于在记录节点与数据记录对应的至少一个存储节点之间添加边。
根据本申请的一个或多个实施例,在根据多个数据记录各自对应的数据属性,将多个数据记录存储至图存储空间之后,方法还包括:
检测图存储空间是否存在重复的存储节点,其中,重复的存储节点为具有相同的数据属性及数据存储内容的存储节点;
将重复的存储节点合并为一个存储节点。
根据本申请的一个或多个实施例,每个存储节点对应一个实体,每一条边对应为所连接的第一实体和第二实体之间的预定关系,表示学习算法基于如下至少之一神经网络模型实现:平移模型、旋转模型、语义匹配模型、图卷积神经网络模型、预训练语言模型。
在示例性实施例中,本申请实施例还提供了一种电子设备,包括:处理器,以及与上述处理器连接的存储器;
上述存储器存储计算机执行指令;
上述处理器执行上述存储器存储的计算机执行指令,以实现如任一项上述的方法。
在示例性实施例中,本申请实施例还提供了一种计算机可读存储介质,上述计算机可读存储介质中存储有计算机执行指令,上述计算机执行指令被处理器执行时用于实现如任一项上述的方法。
在示例性实施例中,本申请实施例还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现任一项上述的方法。
为了实现上述实施例,本申请实施例还提供了一种电子设备。
参考图5,其示出了适于用来实现本申请实施例的电子设备700的结构示意图,该电子设备700可以为终端设备或服务器。其中,终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、个人数字助理(Personal Digital Assistant,简称PDA)、平板电脑(Portable Android Device,简称PAD)、便携式多媒体播放器(Portable MediaPlayer,简称PMP)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图5示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,电子设备700可以包括处理装置(例如中央处理器、图形处理器等)701,其可以根据存储在只读存储器(Read Only Memory,简称ROM)702中的程序或者从存储装置708加载到随机访问存储器(Random Access Memory,简称RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有电子设备700操作所需的各种程序和数据。处理装置701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
通常,以下装置可以连接至I/O接口705:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置707;包括例如液晶显示器(Liquid CrystalDisplay,简称LCD)、扬声器、振动器等的输出装置707;包括例如磁带、硬盘等的存储装置708;以及通信装置707。通信装置707可以允许电子设备700与其他设备进行无线或有线通信以交换数据。虽然图5示出了具有各种装置的电子设备700,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置707从网络上被下载和安装,或者从存储装置708被安装,或者从ROM702被安装。在该计算机程序被处理装置701执行时,执行本申请实施例的方法中限定的上述功能。
需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例所示的方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network,简称LAN)或广域网(Wide Area Network,简称WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行装置或设备使用或与指令执行装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

Claims (13)

1.一种数据记录的来源用户确定方法,其特征在于,所述方法包括:
获取多个数据源中的多个数据记录,以及多个数据记录各自对应的数据属性,其中,对任意一个数据源,至少存在另一个数据源,二者之间有至少一个数据属性相同的数据记录;
根据多个所述数据记录各自对应的数据属性,将多个所述数据记录存储至图存储空间,其中,每个数据属性对应所述图存储空间的一个存储节点;
获取多个所述数据属性之间的预定关系,以基于所述预定关系在所述图存储空间中的多个所述存储节点之间添加边;
采用表示学习算法将多个所述存储节点和所述边表示为空间向量,以基于多个所述空间向量之间的向量距离,确定多个所述数据记录的来源用户是否为同一用户。
2.根据权利要求1所述的方法,其特征在于,所述根据多个所述数据记录各自对应的数据属性,将多个所述数据记录存储至图存储空间,包括:
根据所述数据属性拆分多个所述数据源中的多个所述数据记录,以得到每个所述数据属性对应的拆分后数据记录;
获取每个所述数据属性在所述图存储空间上对应的存储节点;
将每个所述数据属性对应的拆分后数据记录,存储至在所述图存储空间上所述数据属性对应的所述存储节点上。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述图存储空间创建与每个所述数据记录对应的记录节点,其中,每个所述数据记录对应一个或多个所述存储节点;
在所述记录节点与所述数据记录对应的至少一个存储节点之间添加边。
4.根据权利要求1所述的方法,其特征在于,在根据多个所述数据记录各自对应的数据属性,将多个所述数据记录存储至图存储空间之后,所述方法还包括:
检测所述图存储空间是否存在重复的存储节点,其中,所述重复的存储节点为具有相同的数据属性及数据存储内容的存储节点;
将所述重复的存储节点合并为一个所述存储节点。
5.根据权利要求1至4中任意一项所述的方法,其特征在于,每个所述存储节点对应一个实体,每一条所述边对应为所连接的第一实体和第二实体之间的预定关系,所述表示学习算法基于如下至少之一神经网络模型实现:平移模型、旋转模型、语义匹配模型、图卷积神经网络模型、预训练语言模型。
6.一种数据记录的来源用户确定装置,其特征在于,所述装置包括:
第二获取模块,用于获取多个数据源中的多个数据记录,以及多个数据记录各自对应的数据属性,其中,对任意一个数据源,至少存在另一个数据源,二者之间有至少一个数据属性相同的数据记录;
存储模块,用于根据多个所述数据记录各自对应的数据属性,将多个所述数据记录存储至图存储空间,其中,每个数据属性对应所述图存储空间的一个存储节点;
第二获取模块,用于获取多个所述数据属性之间的预定关系,以基于所述预定关系在所述图存储空间中的多个所述存储节点之间添加边;
确定模块,用于采用表示学习算法将多个所述存储节点和所述边表示为空间向量,以基于多个所述空间向量之间的向量距离,确定多个所述数据记录的来源用户是否为同一用户。
7.根据权利要求6所述的装置,其特征在于,所述存储模块,包括:
拆分子单元,用于根据所述数据属性拆分多个所述数据源中的多个所述数据记录,以得到每个所述数据属性对应的拆分后数据记录;
获取子单元,用于获取每个所述数据属性在所述图存储空间上对应的存储节点;
存储子单元,用于将每个所述数据属性对应的拆分后数据记录,存储至所述数据属性在所述图存储空间上对应的所述存储节点上。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
创建模块,用于在所述图存储空间创建与每个所述数据记录对应的记录节点,其中,每个所述数据记录对应一个或多个所述存储节点;
添加模块,用于在所述记录节点与所述数据记录对应的至少一个存储节点之间添加边。
9.根据权利要求6所述的装置,其特征在于,在根据多个所述数据记录各自对应的数据属性,将多个所述数据记录存储至图存储空间之后,所述方法还包括:
检测所述图存储空间是否存在重复的存储节点,其中,所述重复的存储节点为具有相同的数据属性及数据存储内容的存储节点;
将所述重复的存储节点合并为一个存储节点。
10.根据权利要求6至9中任意一项所述的装置,其特征在于,每个所述存储节点对应一个实体,每一条所述边对应为所连接的第一实体和第二实体之间的预定关系,所述表示学习算法基于如下至少之一神经网络模型实现:平移模型、旋转模型、语义匹配模型、图卷积神经网络模型、预训练语言模型。
11.一种电子设备,其特征在于,包括:处理器,以及与所述处理器连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1至5中任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1至5中任一项所述的方法。
13.一种计算机程序产品,其特征在于,包括计算机程序,该计算机程序被处理器执行时实现权利要求1至5中任一项所述的方法。
CN202211538988.8A 2022-12-02 2022-12-02 数据记录的来源用户确定方法、装置、电子设备及介质 Pending CN116150432A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211538988.8A CN116150432A (zh) 2022-12-02 2022-12-02 数据记录的来源用户确定方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211538988.8A CN116150432A (zh) 2022-12-02 2022-12-02 数据记录的来源用户确定方法、装置、电子设备及介质

Publications (1)

Publication Number Publication Date
CN116150432A true CN116150432A (zh) 2023-05-23

Family

ID=86355278

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211538988.8A Pending CN116150432A (zh) 2022-12-02 2022-12-02 数据记录的来源用户确定方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN116150432A (zh)

Similar Documents

Publication Publication Date Title
US10726018B2 (en) Semantic matching and annotation of attributes
CN110096584B (zh) 一种应答方法和装置
CN112163076B (zh) 知识问题库构建方法、问答处理方法、装置、设备和介质
WO2021135455A1 (zh) 语义召回方法、装置、计算机设备及存储介质
CN112100396A (zh) 一种数据处理方法和装置
WO2023273598A1 (zh) 文本搜索方法、装置、可读介质及电子设备
CN111325022A (zh) 识别层级地址的方法和装置
WO2024021790A1 (zh) 一种基于数据湖的虚拟列构建方法以及数据查询方法
CN111008213A (zh) 用于生成语言转换模型的方法和装置
CN111078849A (zh) 用于输出信息的方法和装置
CN110737820B (zh) 用于生成事件信息的方法和装置
CN113919320A (zh) 异构图神经网络的早期谣言检测方法、系统及设备
CN116562255B (zh) 表单信息生成方法、装置、电子设备和计算机可读介质
CN111382365B (zh) 用于输出信息的方法和装置
CN117312525A (zh) 基于知识图谱的问答方法、装置、设备及存储介质
CN107704538A (zh) 一种垃圾文本处理方法、装置、设备及存储介质
CN116150432A (zh) 数据记录的来源用户确定方法、装置、电子设备及介质
CN111737571B (zh) 搜索方法、装置和电子设备
CN112148751B (zh) 用于查询数据的方法和装置
CN113393288A (zh) 订单处理信息生成方法、装置、设备和计算机可读介质
CN113779370A (zh) 一种地址检索方法和装置
CN112148847A (zh) 一种语音信息的处理方法及装置
CN115994151B (zh) 数据请求变更方法、装置、电子设备和计算机可读介质
CN110598133A (zh) 确定搜索项目的顺序的方法、装置、电子设备和计算机可读存储介质
CN116186093B (zh) 地址信息处理方法、装置、电子设备与计算机可读介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination