CN112463991B - 历史行为数据的处理方法、装置、计算机设备及存储介质 - Google Patents
历史行为数据的处理方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112463991B CN112463991B CN202110139278.7A CN202110139278A CN112463991B CN 112463991 B CN112463991 B CN 112463991B CN 202110139278 A CN202110139278 A CN 202110139278A CN 112463991 B CN112463991 B CN 112463991B
- Authority
- CN
- China
- Prior art keywords
- user
- behavior
- knowledge
- entity
- service line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种历史行为数据的处理方法、装置、计算机设备及存储介质,该方法包括:获取用户在多个业务线中的历史行为数据和实体标记;利用基于不同业务的共有特性所构造的跨域知识图谱,将各个业务线的所述实体标记转换为统一语义空间中的知识表达;根据各个业务线的所述知识表达构建所述用户的全域异构行为图,并依据所述全域异构行为图存储所述用户的历史行为数据;该技术方案通过跨域知识图谱为多个不同业务线上的行为数据进行统一的知识表达,可以融合同一用户在其他场景或业务线下的异构行为数据,其数据存储格式可以描述用户在所有场景或者业务线上的全域历史行为,提高了历史行为数据的协同效率和利用价值。
Description
技术领域
本申请涉及大数据处理技术领域,具体而言,本申请涉及一种历史行为数据的处理方法和装置,以及一种计算机设备及计算机可读存储介质。
背景技术
利用用户历史行为数据进行相关分析是电商行业和内容分发行业的常用方法,这种方法通过收集用户在相同业务线上的历史行为得到其对该业务的潜在兴趣,并将用户潜在兴趣用于在线的搜索推荐。例如,在电商服务平台上,需要根据用户所处场景为用户提供准确的兴趣建模和搜索匹配,在智能搜索业务中,将用户的历史行为保存下来进行分析与利用成为后续算法高效输出的关键步骤。
目前,对于历史行为数据的处理方法大多使用数据库对历史行为进行按表格式的存储,用户的历史行为被记录为表中的一行数据。这种数据存储格式受限于原有业务的数据规模和数据所包含语义,以及用户在不同业务线上的行为记录格式不一致和数据安全性等问题,无法直接融合同一用户在其他场景或业务线下的异构行为数据,而且随着这些历史行为数据的增加,数据安全性的风险也变高,同时也限制了规模数据的经济利用价值。
发明内容
为了解决上述技术缺陷之一,本申请提供了一种历史行为数据的处理方法和装置,以及一种计算机设备及计算机可读存储介质,在确保数据安全性前提下,对用户在多个不同业务线下的异构行为数据进行全域描述,实现不同场景或业务线下的数据融合存储和灵活应用。
该技术方案如下所示:
第一方面,本申请提供了一种历史行为数据的处理方法,包括如下步骤:
获取用户在多个业务线中的历史行为数据和实体标记;
利用基于不同业务的共有特性所构造的跨域知识图谱,将各个业务线的所述实体标记转换为统一语义空间中的知识表达;
根据各个业务线的所述知识表达构建所述用户的全域异构行为图,并依据所述全域异构行为图存储所述用户的历史行为数据。
在一个实施例中,所述获取用户在多个业务线中的历史行为数据和实体标记,包括:
获取用户需要协同构造异构历史行为的多个业务线;
确定所述业务线中包含的业务线实体;
获取所述业务线实体在所属业务线上专属的实体标记。
在一个实施例中,所述将各个业务线的所述实体标记转换为统一语义空间中的知识表达,包括:
抽取所述实体标记中的关键知识;
根据所述跨域知识图谱将各实体标记中的所述关键知识映射为语义形式一致的知识表达。
在一个实施例中,所述根据各个业务线的所述知识表达构建所述用户的全域异构行为图,包括:
分别根据所述用户在各个业务线中的知识表达构建相应的异构行为子图;
以相同的用户标记为基础节点联结将各个业务线的异构行为子图,得到所述用户的全域异构行为图。
在一个实施例中,所述分别根据所述用户在各个业务线中的知识表达构建相应的异构行为子图,包括:
对每个业务线中的实体标记进行分类,将每种类型的实体标记的知识表达及其对应的行为时序逻辑构建异构行为子图;
其中,异构行为子图的边对应用户行为,业务线中不同实体标记对应的知识表达为节点。
在一个实施例中,所述的方法还包括:
获取所述用户在不同业务线下所记录的历史行为数据;
挖掘各个业务线的所述历史行为数据的共有特性,并基于所述共有特性构建所述跨域知识图谱。
在一个实施例中,所述挖掘各个业务线的所述历史行为数据的共有特性,并基于所述共有特性构建所述跨域知识图谱,包括:
利用二部图方法将所述历史行为数据描述为异构行为图,挖掘所述异构行为图中各个节点之间的共有特性以及各个节点中代表性的知识信息;
以所述共有特性为基础数据,以所述知识信息为知识节点构建所述跨域知识图谱;其中,所述跨域知识图谱表达形式为一对多映射关系。
在一个实施例中,所述历史行为数据包括:脱敏后的用户标记、行为作用的对象、行为描述信息以及行为发生时间和地点。
在一个实施例中,所述行为作用的对象包括商铺或商品;所述行为描述信息包括搜索和点击。
第二方面,本申请提供一种历史行为数据的处理装置,包括:
读取模块,用于获取用户在多个业务线中的历史行为数据和实体标记;
转换模块,用于利用基于不同业务的共有特性所构造的跨域知识图谱,将各个业务线的所述实体标记转换为统一语义空间中的知识表达;
存储模块,用于根据各个业务线的所述知识表达构建所述用户的全域异构行为图,并依据所述全域异构行为图存储所述用户的历史行为数据。
第三方面,本申请提供了一种计算机设备,该计算机设备包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行根据第一方面所示的历史行为数据的处理方法所对应的操作。
第四方面,本申请提供了一种计算机可读存储介质,存储介质存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如第一方面所示的历史行为数据的处理方法。
本申请提供的技术方案带来的有益效果是:
本申请的历史行为数据的处理方法,可以获取用户在多个业务线中的历史行为数据和实体标记,利用基于不同业务的共有特性预先构造的跨域知识图谱将各个业务线的实体标记转换为统一语义空间中的知识表达,在此基础上构建用户的全域异构行为图,并以此全域异构行为图来存储用户的历史行为数据;该技术方案通过跨域知识图谱为多个不同业务线上的行为数据进行统一的知识表达,可以融合同一用户在其他场景或业务线下的异构行为数据,其数据存储格式可以描述用户在所有场景或者业务线上的全域历史行为,提高了历史行为数据的协同效率和利用价值。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1是一个实施例的历史行为数据的处理方法的流程图;
图2是统一表达的跨域知识图谱示例图;
图3是异构行为子图的示例图;
图4是全域异构行为图示例图;
图5是另一个构建全域异构行为图示例图;
图6是数据存储格式示例图;
图7是一个实施例的历史行为数据的处理装置结构示意图;
图8是一个实施例的计算机设备结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
下面针对于本申请中涉及的部分术语和关键词进行解析。
本地生活场景:本地、线下、具有实体店铺的餐饮、生活服务、休闲娱乐等商家服务信息,以一种线上店铺的方式呈现给用户,此类服务的场景被统称为本地生活场景,与电商场景不同的是,此类场景对用户和店铺之间的距离较为敏感。
图和异构图:图是由顶点的有穷集合和顶点之间边的集合组成的一种数据结构,异构图是指图中包含多种类型的节点和边。
异构行为:来源是不一样的行为,例如点击推荐商品和搜索商品。
全域行为:指同一个用户在不同产品和业务线上的全部行为。
元路径:节点和边组成的一条路径,描述这种组合关系的语义含义;其中,UQI指的是用户(user)经过搜索(query输入)点击了店铺/商品(item),UI指的是用户直接点击店铺或商品。
行为图:图中元路径代表了用户的历史行为。
知识图谱:存在语义关联的节点组成的图,对某个节点来说,与其关联的节点均可视为解释该节点的知识。
跨域统一的知识表达:利用跨域知识图谱对不同场景/业务的不同实体进行同一语义空间的统一表达。
业务线实体:商品、商铺、视频等
语义空间:信息理解和维度保持一致的信息层次空间,例如语言是一个语义空间、数字也是一个语义空间。
在互联网技术中,大数据分析重要的技术环节,比如在电商平台和内容分发平台,通过收集用户对业务的历史行为数据,可以分析用户对该业务的潜在兴趣,从而可以生成在线的搜索推荐。由于目前大数据分析中,对于原始的数据记录,主要是使用数据库对历史行为数据进行按表格式的存储,但数据存储格式受限于原有业务的数据规模和数据所包含语义,用户在不同业务线上的行为记录数据格式不一致,导致同一用户在其他场景或业务线下的历史行为数据之间难以融合;再考虑到数据安全性问题,大量增长的历史行为数据中都携带有用户的敏感信息,一旦脱敏处理不到位,也容易导致私密数据泄露风险。
据此,本申请针对于现有数据存储处理上的上述种种问题,创新了数据处理存储方案,实现了描述用户在多场景和业务线下的全域行为,打通了不同业务线下的历史行为数据的融合通道,实现了规模数据的经济利用价值。
本申请的实施例将以本地生活服务中的相关例子辅助描述,但本申请相关技术不限定于此,在基于大数据处理领域中,本申请提供的技术方案也具有相应的通用性,解决大数据处理中存在的类似技术问题,且得到相应的技术效果。
参考图1,图1是一个实施例的历史行为数据的处理方法的流程图,包括如下步骤:
步骤S10,获取用户在多个业务线中的历史行为数据和实体标记。
此步骤中,历史行为数据主要是指脱敏后的用户标记、行为作用的对象、行为描述信息以及行为发生时间和地点等等;例如,在本地生活服务平台上,行为作用的对象可以包括商铺、商品等,行为描述信息可以是搜索和点击等。
在一个实施例中,步骤S10的方法,可以首先获取用户需要协同构造异构历史行为的多个业务线;然后确定这些业务线中包含的业务线实体,再获取业务线实体在所属业务线上专属的实体标记。
具体的,选取一个用户需要协同构造异构历史行为数据的多个业务线,读取其记录的历史行为数据和确定该业务线中涉及到的实体标记;在业务线上,任何实体对应有相应的身份标记(Identity document,ID),获取该实体标记即获取实现描述信息。
例如,用户在一业务线有过搜索商铺并点击商品的行为,或者直接点击商品和点击内容的行为,确定该业务线中商品/内容/商铺等实体,提取这些实体专属的实体标记;比如,某商铺对应在该业务线上使用的实体标记为“000”,在该业务线上使用“000”来表示;而在另一个业务线上,该商铺是使用了“aaa”来表示,也即每个业务线上该商铺都有专属的实体标记。
步骤S20,利用基于不同业务的共有特性所构造的跨域知识图谱,将各个业务线的所述实体标记转换为统一语义空间中的知识表达。
此步骤中,根据预先构造好的跨域知识图谱,将这些从不同业务线上获取的实体标记映射到一个统一的语义空间来进行表达,将历史行为数据中相一致的知识信息构造成统一知识标记。
在一个实施例中,对于转换统一语义空间知识表达的方法,首先抽取实体标记中的关键知识;然后根据跨域知识图谱将各实体标记中的关键知识映射为语义形式一致的知识表达。
对于跨域知识图谱,其是依据各个业务线的异构行为图的各个节点之间的共有特性所构建,因此,其可以代表各个场景或业务线下的共享特征,同时也可以包含体现各个节点的最具代表性的知识信息部分。
为了更加清晰本实施例的技术方案,下面阐述一种构建跨域知识图谱的方案实施例。
在使用跨域知识图谱之前,需要构建该用户通用的跨域知识图谱,从而可以为该用户在各个业务线上不同类型的实体提供表达形式一致的知识表达,构建过程可以包括如下:
(1)获取所述用户在不同业务线下所记录的历史行为数据。
获取用户在多个业务线下的历史行为数据,例如用户在业务一有过搜索并点击商品的行为,在业务二有过直接点击商品的行为,则在对应业务日志表中记录脱敏后的用户ID、商品ID、搜索串信息、行为发生时间、行为发生地点等信息。
(2)挖掘各个业务线的所述历史行为数据的共有特性,并基于所述共有特性构建所述跨域知识图谱。
优选的,可以将历史行为数据描述为异构行为图,挖掘异构行为图中各个节点之间的共有特性以及各个节点中代表性的知识信息;然后以共有特性为基础数据,以知识信息为知识节点构建跨域知识图谱。
通过跨域知识图谱可以对业务线上的店铺、场景或搜索串等等进行统一的映射,跨域知识图谱表达形式为一对多映射关系,即多个业务线中对于相同或近似的实体采用统一的知识表达来描述(如使用统一知识ID来描述)。
将历史行为数据描述为异构行为图,首先统计用户行为点击次数,利用搜索串-店铺信息的二部图等方法挖掘出搜索串与店铺的共有特性,包括类目词、核心实体词、推荐菜品词等。以此类推,挖掘异构行为图中各个节点之间的共有特性,作为跨域知识图谱的基础数据部分;再选用各个节点的最具代表性的知识信息加入到跨域知识图谱中。
如图2所示,图2是统一表达的跨域知识图谱示例图;图中左侧部分是挖掘出来的店铺的知识图谱,场景理解知识和搜索理解知识,将这些种类繁杂的知识信息通过统一表达,可以映射为如图示右侧所示的跨域知识图谱,经过跨域知识图谱统一表达后,“肯德基”上有“咖啡”和“炸鸡”的知识节点,“咖啡”的知识节点和搜索词“咖啡”是共用的知识表达,实现了跨域知识图谱统一知识表达。
具体地,本实施例的方案,可以通过抽取各实体的关键知识信息,将一致的知识信息构造成统一知识表达,由于跨域知识图谱是一对多的映射关系,输入为各个业务线的实体原来专属的实体ID,输出为多个最具代表性的知识ID;输入为各业务线的实体ID(彼此屏蔽的),则输出为基于知识图谱构造的知识ID。
例如,某外卖炸鸡店在业务一上的实体ID为“123”,对应知识ID为“炸鸡、外卖”;某西式快餐店在业务二上的实体ID为“abc”,对应知识ID为“炸鸡、汉堡、薯条”,可见,同一个实体在业务一和业务二中的实体ID的构造方法是不同的,但是通过知识图谱构造的知识ID是一致的。
通过上述实施例的方案,利用知识图谱进行多业务历史行为数据的融合、为多业务中的不同类型实体提供了表达形式一致的统一知识表达。
步骤S30,根据各个业务线的所述知识表达构建所述用户的全域异构行为图,并依据所述全域异构行为图存储所述用户的历史行为数据。
此步骤中,利用各个业务线统一的知识表达,构建用户的全域异构行为图,并用于存储用户的历史行为数据。
在一个实施例中,上述构建全域异构行为图的方法,可以包括如下:
(1)分别根据所述用户在各个业务线中的知识表达构建相应的异构行为子图。
优选的,可以对每个业务线中的实体标记进行分类,将每种类型的实体标记的知识表达及其对应的行为时序逻辑构建异构行为子图。
具体的,得到各个业务线上实体的统一知识表达之后,用户的历史行为数据都处于统一的语义空间之中,此时,根据各条业务线上的实体类型和行为时序逻辑,基于各个实体统一的知识表达可以构造用户的异构行为子图。
参考图3,图3是异构行为子图的示例图,异构行为子图的边对应用户行为,业务线中不同实体标记对应的知识表达为节点;示例图中用户u1与搜索串q1之间的边代表了搜索行为,搜索串q1和店铺i1之间的边代表了用户的点击行为,由此为图中的边赋予用户行为包含的语义信息。
基于上述实施例的业务一和业务二,可以分别构建两种类型异构行为子图,如图示,业务一的异构行为子图的u1q1i1表示的用户u1通过搜索q1对点击了商品i1;业务二中u1i4表示用户u1直接点击了商品i4。
(2)以相同的用户标记为基础节点联结将各个业务线的异构行为子图,得到所述用户的全域异构行为图。
具体的,由于用户的各个场景或业务线下的历史行为数据都通过统一的语义空间表示,因此将相同用户ID的异构行为子图联结合并在一起,即可以得到该用户的全域异构行为图。
参考图4,图4是全域异构行为图示例图;利用图3中相同的用户ID(u1)进行联结后可得到在统一语义空间的用户的全域异构行为图。
在本实施例中,用户行为作为异构图中的边连接业务线中不同节点,使用多个业务线的历史行为数据表达用户的全域历史行为。
在构造出用户的全域异构行为图后,并依据该全域异构行为图存储用户的历史行为数据;由于使用基于统一的知识表达的异构图结构,如果用户还有其他场景或者业务线上的历史行为数据,都可以在该全域异构行为图上增量式拓展,且不受制于业务场景。
参考图5,图5是另一个构建全域异构行为图示例图;该实例中列举的UQI用户经过搜索点击了店铺/商品的历史行为;其中,query是搜索输入,geohash是位置信息,time是指搜索行为的发生时间;clk-shop是指点击的商铺。
参考图6,图6是数据存储格式示例图;在存储数据时,如图中,常规技术中需要一行数据来表达,由于不同的业务线会有不同的实体ID,因此多个行为需要多行数据。而采用本申请的方案,如u1,q1,g,t,[i3,i4]就可以用图中统一的知识表达来描述,每个数据是通过5位的ID号来描述,如果要描述20次在不同业务线上的搜索行为,则可以在数据上使用统一的ID号进行增量式扩展来描述,扩展中是完全不受制于业务场景。
综合上述实施例的技术方案,通过跨域知识图谱为多个不同业务线上的行为数据进行统一的知识表达,其数据存储格式可以描述用户在所有场景或者业务线上的全域历史行为,关键数据保密的前提下,提高了历史行为数据的协同效率和利用价值。
另外,大量的用户行为数据携带有关键保密数据,本申请技术方案可以在数据脱敏情况下,利用用户的历史行为作为异构图中边的语义属性,连接不同业务线的异构实体统一知识表达,自适应的构造了用户异构行为图,从而可以支持不受制于业务场景的增量式数据拓展。丰富了数据中所包含的语义信息。
而且,基于异构行为图的用户全域行为数据可以增加对用户喜好的理解,提升了用户和商户之间的匹配效率,促进规模经济协同价值的进一步提升。
上述实施例阐述了历史行为数据的处理方法,下述阐述基于本申请提供的方法所对应的虚拟装置的实施例,具体如下:
参考图7,图7是一个实施例的历史行为数据的处理装置结构示意图,包括:读取模块10、转换模块20和存储模块30。
对于读取模块10,用于获取用户在多个业务线中的历史行为数据和实体标记。
对于转换模块20,用于利用基于不同业务的共有特性所构造的跨域知识图谱,将各个业务线的所述实体标记转换为统一语义空间中的知识表达;
对于存储模块30,用于根据各个业务线的所述知识表达构建所述用户的全域异构行为图,并依据所述全域异构行为图存储所述用户的历史行为数据。
本实施例的历史行为数据的处理装置可执行本申请的实施例所提供的一种历史行为数据的处理方法,其实现原理相类似,本申请各实施例中的历史行为数据的处理装置中的各模块所执行的动作是与本申请各实施例中的历史行为数据的处理方法中的步骤相对应的,对于历史行为数据的处理装置的各模块的详细功能描述具体可以参见前文中所示的对应的历史行为数据的处理方法中的描述,此处不再赘述。
上面从功能模块化的角度对本申请实施例所提供的历史行为数据的处理装置进行介绍,接下来,将从硬件实体化的角度对本申请实施例提供的计算机设备进行介绍,并同时对计算机设备的计算系统进行介绍。
基于与本申请的实施例中所示的方法相同的原理,本申请的实施例中还提供了一种计算机设备,该计算机设备可以包括但不限于:
处理器和存储器;
存储器,用于存储计算机操作指令;
处理器,用于通过调用计算机操作指令执行实施例所示的历史行为数据的处理方法。
与现有技术相比,本申请中的技术方案,通过跨域知识图谱为多个不同业务线上的行为数据进行统一的知识表达,可以融合同一用户在其他场景或业务线下的异构行为数据,其数据存储格式可以描述用户在所有场景或者业务线上的全域历史行为,提高了历史行为数据的协同效率和利用价值。
在一个可选实施例中提供了一种计算机设备,如图8所示,图8所示的计算机设备800包括:
处理器801和存储器803。
其中,处理器801和存储器803相连,如通过总线802相连。可选地,计算机设备800还可以包括收发器804。
需要说明的是,实际应用中收发器804不限于一个,该计算机设备800的结构并不构成对本申请实施例的限定。
处理器801可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器801也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线802可包括一通路,在上述组件之间传送信息。总线802可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线802可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器803可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器803用于存储执行本申请方案的应用程序代码,并由处理器801来控制执行。处理器801用于执行存储器803中存储的应用程序代码,以实现前述方法实施例所示的内容。
其中,计算机设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图8示出的计算机设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与现有技术相比,本申请中的技术方案,通过跨域知识图谱为多个不同业务线上的行为数据进行统一的知识表达,可以融合同一用户在其他场景或业务线下的异构行为数据,其数据存储格式可以描述用户在所有场景或者业务线上的全域历史行为,提高了历史行为数据的协同效率和利用价值。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
需要说明的是,本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述计算机设备中所包含的;也可以是单独存在,而未装配入该计算机设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该计算机设备执行时,使得该计算机设备执行上述实施例所示的方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (12)
1.一种历史行为数据的处理方法,其特征在于,包括如下步骤:
获取用户在多个业务线中的历史行为数据和实体标记;
利用基于不同业务的共有特性所构造的跨域知识图谱,将各个业务线不同语义空间的实体标记映射至统一语义空间进行表达,得到各个业务线所述实体标记在统一语义空间中的知识表达,所述跨域知识图谱反映了各个业务线不同语义空间的实体标记与统一语义空间中的知识表达之间的映射关系;
根据各个业务线所述实体标记在统一语义空间中的知识表达构建所述用户的全域异构行为图,并依据所述全域异构行为图存储所述用户的历史行为数据,所述用户的全域异构行为图用于描述所述用户在各个业务线中的历史行为。
2.根据权利要求1所述的方法,其特征在于,所述获取用户在多个业务线中的历史行为数据和实体标记,包括:
获取用户需要协同构造异构历史行为的多个业务线;
确定所述业务线中包含的业务线实体;
获取所述业务线实体在所属业务线上专属的实体标记。
3.根据权利要求1所述的方法,其特征在于,所述将各个业务线不同语义空间的实体标记映射至统一语义空间进行表达,得到各个业务线所述实体标记在统一语义空间中的知识表达,包括:
抽取所述实体标记中的关键知识;
根据所述跨域知识图谱将各实体标记中的所述关键知识映射为语义形式一致的知识表达。
4.根据权利要求1所述的方法,其特征在于,所述根据各个业务线所述实体标记在统一语义空间中的知识表达构建所述用户的全域异构行为图,包括:
分别根据所述用户在各个业务线中的知识表达构建相应的异构行为子图;
以相同的用户标记为基础节点,联结各个业务线的异构行为子图,得到所述用户的全域异构行为图。
5.根据权利要求4所述的方法,其特征在于,所述分别根据所述用户在各个业务线中的知识表达构建相应的异构行为子图,包括:
对每个业务线中的实体标记进行分类,将每种类型的实体标记的知识表达及其对应的行为时序逻辑构建异构行为子图;
其中,异构行为子图的边对应用户行为,业务线中不同实体标记对应的知识表达为节点。
6.根据权利要求1至5任一项所述的方法,其特征在于,还包括:
获取所述用户在不同业务线下所记录的历史行为数据;
挖掘各个业务线的所述历史行为数据的共有特性,并基于所述共有特性构建所述跨域知识图谱。
7.根据权利要求6所述的方法,其特征在于,所述挖掘各个业务线的所述历史行为数据的共有特性,并基于所述共有特性构建所述跨域知识图谱,包括:
利用二部图方法将所述历史行为数据描述为异构行为图,挖掘所述异构行为图中各个节点之间的共有特性以及各个节点中代表性的知识信息;
以所述共有特性为基础数据,以所述知识信息为知识节点构建所述跨域知识图谱;其中,所述跨域知识图谱表达形式为一对多映射关系。
8.根据权利要求6所述的方法,其特征在于,所述历史行为数据包括:脱敏后的用户标记、行为作用的对象、行为描述信息以及行为发生时间和地点。
9.根据权利要求8所述的方法,其特征在于,所述行为作用的对象包括商铺或商品;所述行为描述信息包括搜索和点击。
10.一种历史行为数据的处理装置,其特征在于,包括:
读取模块,用于获取用户在多个业务线中的历史行为数据和实体标记;
转换模块,用于利用基于不同业务的共有特性所构造的跨域知识图谱,将各个业务线不同语义空间的实体标记映射至统一语义空间进行表达,得到各个业务线所述实体标记在统一语义空间中的知识表达,所述跨域知识图谱反映了各个业务线不同语义空间的实体标记与统一语义空间中的知识表达之间的映射关系;
存储模块,用于根据各个业务线所述实体标记在统一语义空间中的知识表达构建所述用户的全域异构行为图,并依据所述全域异构行为图存储所述用户的历史行为数据,所述用户的全域异构行为图用于描述所述用户在各个业务线中的历史行为。
11.一种计算机设备,其特征在于,其包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求1至9任一项所述的历史行为数据的处理方法。
12.一种计算机可读存储介质,其特征在于,所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一项所述的历史行为数据的处理方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110139278.7A CN112463991B (zh) | 2021-02-02 | 2021-02-02 | 历史行为数据的处理方法、装置、计算机设备及存储介质 |
PCT/CN2022/073376 WO2022166635A1 (zh) | 2021-02-02 | 2022-01-24 | 历史行为数据的处理方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110139278.7A CN112463991B (zh) | 2021-02-02 | 2021-02-02 | 历史行为数据的处理方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112463991A CN112463991A (zh) | 2021-03-09 |
CN112463991B true CN112463991B (zh) | 2021-04-30 |
Family
ID=74802775
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110139278.7A Active CN112463991B (zh) | 2021-02-02 | 2021-02-02 | 历史行为数据的处理方法、装置、计算机设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112463991B (zh) |
WO (1) | WO2022166635A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112463991B (zh) * | 2021-02-02 | 2021-04-30 | 浙江口碑网络技术有限公司 | 历史行为数据的处理方法、装置、计算机设备及存储介质 |
CN113792159B (zh) * | 2021-09-16 | 2024-07-02 | 支付宝(杭州)信息技术有限公司 | 一种知识图谱数据融合方法和系统 |
CN113987360B (zh) * | 2021-12-24 | 2022-05-17 | 浙江口碑网络技术有限公司 | 对象推荐方法、装置、电子设备及存储介质 |
CN114282011B (zh) * | 2022-03-01 | 2022-08-23 | 支付宝(杭州)信息技术有限公司 | 知识图谱的构建方法和装置、图计算方法及装置 |
CN117290611B (zh) * | 2023-11-24 | 2024-02-23 | 北京信立方科技发展股份有限公司 | 基于多层次知识图谱的仪器推荐方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110093A (zh) * | 2019-04-08 | 2019-08-09 | 深圳众赢维融科技有限公司 | 一种基于知识图谱的识别方法、装置、电子设备及存储介质 |
CN110941664B (zh) * | 2019-12-11 | 2024-01-09 | 北京百度网讯科技有限公司 | 知识图谱的构建方法、检测方法、装置、设备及存储介质 |
CN111400507B (zh) * | 2020-06-05 | 2020-11-10 | 浙江口碑网络技术有限公司 | 实体匹配方法及其装置 |
CN112100513A (zh) * | 2020-08-27 | 2020-12-18 | 北京明略昭辉科技有限公司 | 基于知识图谱的推荐方法、装置、设备及计算机可读介质 |
CN111931069B (zh) * | 2020-09-25 | 2021-01-22 | 浙江口碑网络技术有限公司 | 用户兴趣确定方法、装置及计算机设备 |
CN112214685B (zh) * | 2020-09-27 | 2023-03-28 | 电子科技大学 | 一种基于知识图谱的个性化推荐方法 |
CN112463991B (zh) * | 2021-02-02 | 2021-04-30 | 浙江口碑网络技术有限公司 | 历史行为数据的处理方法、装置、计算机设备及存储介质 |
-
2021
- 2021-02-02 CN CN202110139278.7A patent/CN112463991B/zh active Active
-
2022
- 2022-01-24 WO PCT/CN2022/073376 patent/WO2022166635A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
CN112463991A (zh) | 2021-03-09 |
WO2022166635A1 (zh) | 2022-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112463991B (zh) | 历史行为数据的处理方法、装置、计算机设备及存储介质 | |
US11244011B2 (en) | Ingestion planning for complex tables | |
US11670288B1 (en) | Generating predicted follow-on requests to a natural language request received by a natural language processing system | |
Kumar et al. | Twitter data analytics | |
US20180232438A1 (en) | Title display method and apparatus | |
Oussalah et al. | A software architecture for Twitter collection, search and geolocation services | |
US11475053B1 (en) | Providing completion recommendations for a partial natural language request received by a natural language processing system | |
McCallum | Bad data handbook | |
CN112148889A (zh) | 一种推荐列表的生成方法及设备 | |
US10305845B1 (en) | Accurate user alignment across online social media platforms | |
CN111046237B (zh) | 用户行为数据处理方法、装置、电子设备及可读介质 | |
US20230214895A1 (en) | Methods and systems for product discovery in user generated content | |
KR20140026932A (ko) | 사용자 성향 분석을 통한 맞춤형 쇼핑 정보 제공 시스템 및 방법 | |
US20200226168A1 (en) | Methods and systems for optimizing display of user content | |
US20230024345A1 (en) | Data processing method and apparatus, device, and readable storage medium | |
US9886711B2 (en) | Product recommendations over multiple stores | |
JP7254925B2 (ja) | 改良されたデータマッチングのためのデータレコードの字訳 | |
CN110674404A (zh) | 链接信息生成方法、装置、系统、存储介质及电子设备 | |
Woo et al. | Predicting the ratings of Amazon products using Big Data | |
US9984108B2 (en) | Database joins using uncertain criteria | |
CN116127047B (zh) | 企业信息库的建立方法与装置 | |
US20180196738A1 (en) | Test input information search device and method | |
US11410418B2 (en) | Methods and systems for tagged image generation | |
CN110555070B (zh) | 用于输出信息的方法和装置 | |
US11373230B1 (en) | Probabilistic determination of compatible content |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |