CN116521896A - 一种基于图的负样本获取方法和系统 - Google Patents
一种基于图的负样本获取方法和系统 Download PDFInfo
- Publication number
- CN116521896A CN116521896A CN202310494532.4A CN202310494532A CN116521896A CN 116521896 A CN116521896 A CN 116521896A CN 202310494532 A CN202310494532 A CN 202310494532A CN 116521896 A CN116521896 A CN 116521896A
- Authority
- CN
- China
- Prior art keywords
- rule
- negative sample
- target
- graph
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000010801 machine learning Methods 0.000 claims description 4
- 230000004044 response Effects 0.000 claims description 4
- 238000005065 mining Methods 0.000 claims 1
- 230000000717 retained effect Effects 0.000 claims 1
- 230000008569 process Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000012546 transfer Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 241000579895 Chlorostilbon Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 239000010976 emerald Substances 0.000 description 1
- 229910052876 emerald Inorganic materials 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010006 flight Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000010977 jade Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- ZLIBICFPKPWGIZ-UHFFFAOYSA-N pyrimethanil Chemical compound CC1=CC(C)=NC(NC=2C=CC=CC=2)=N1 ZLIBICFPKPWGIZ-UHFFFAOYSA-N 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例公开了一种基于图的负样本获取方法和系统。其中,每个样本包括两个节点,正样本指示相应对象之间存在目标关系,负样本指示相应对象之间不存在所述目标关系。方法包括:从图中获取正样本集合,并获取支持度满足预设条件的至少一个目标规则,规则的支持度为所述正样本集合中匹配该规则的正样本的数量;从图中获取候选负样本,并确定所述候选负样本对所述至少一个目标规则的匹配情况,并根据所述匹配情况确定所述候选负样本是否为真负样本。
Description
技术领域
本说明书涉及信息技术领域,特别涉及一种基于图的负样本获取方法和系统。
背景技术
一些大数据分析场景需要负样本,然而从图中只能直接获取正样本。有鉴于此,目前亟需提供一种基于图的负样本获取(或称为“负采样”)方案。
发明内容
本说明书实施例之一提供一种基于图的负样本获取方法。其中,图包括节点和边,节点表示对象,边表示对象间的关系。每个样本包括两个节点,正样本指示相应对象之间存在目标关系,负样本指示相应对象之间不存在所述目标关系。所述方法可以包括:从图中获取正样本集合;获取支持度满足预设条件的至少一个目标规则,规则的支持度为所述正样本集合中匹配该规则的正样本的数量;从图中获取候选负样本;确定所述候选负样本对所述至少一个目标规则的匹配情况,并根据所述匹配情况确定所述候选负样本是否为真负样本。
本说明书实施例之一提供一种基于图的负样本获取系统。其中,图包括节点和边,节点表示对象,边表示对象间的关系。每个样本包括两个节点,正样本指示相应对象之间存在目标关系,负样本指示相应对象之间不存在所述目标关系。所述系统可以包括:正样本集合获取模块,用于从图中获取正样本集合;规则获取模块,用于获取支持度满足预设条件的至少一个目标规则,规则的支持度为所述正样本集合中匹配该规则的正样本的数量;候选负样本获取模块,用于从图中获取候选负样本;规则匹配模块,用于确定所述候选负样本对所述至少一个目标规则的匹配情况,并根据所述匹配情况确定所述候选负样本是否为真负样本。
本说明书实施例之一提供一种基于图的负样本获取装置,包括处理器和存储设备。其中,所述存储设备用于存储指令,当所述处理器执行指令时,实现如本说明书任一实施例所述的基于图的负样本获取方法。
附图说明
本说明书将以示例性实施例的方式进一步说明,这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的,在这些实施例中,相同的编号表示相同的结构,其中:
图1是根据本说明书一些实施例所示的知识图谱示意图;
图2是根据本说明书一些实施例所示的基于图的负样本获取方法的示例性流程图;
图3是根据本说明书一些实施例所示的辨别真假负样本的示例性流程图;
图4是根据本说明书一些实施例所示的基于图的负样本获取系统的示例性模块图。
具体实施方式
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本说明书的一些示例或实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明,图中相同标号代表相同结构或操作。
应当理解,本文使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
本说明书主要涉及图技术,因此首先对图的相关术语进行介绍。
图包括节点以及节点之间的边。图技术(例如,知识图谱技术)广泛应用于物理、化学、生物、医疗、交通运输、通信、互联网等领域。图中的节点表示实体(也可称作对象)。节点可以有多种类型,称作节点类型,用于指示各类实体(对象)。例如,图1所示的知识图谱包括两种类型的节点,分别为用户节点和城市节点。图谱中的边表示实体之间的关系,边也可以有多种类型,称作边类型,用于指示各类关系。例如,图1所示的知识图谱包括两种类型的边,分别表示好友关系和居住关系。实体(对象)可以指现实世界中的事物,例如,用户、商户、账户、城市、概念、药物、公司、设备、现象、事件、属性等等。关系可以指不同实体之间的联系,例如,张三和李四是好友关系、社交账号与移动终端具有登录关系、账户A向账户B转账等等。边表示的关系有时候也可视作行为/事件,如用户之间的聊天消息、账户之间的转账、出发地到目的地的航班等等。为了方便描述,可以将表示“XX”实体的节点简称为“XX节点”,将表示“XX”关系的节点简称为“XX边”。在不引起歧义的情况下,实体(对象)和节点、关系和边可以互换使用。
图可以分为同构图和异构图。同构图中仅存在一种边类型和一种节点类型,异构图(例如,图1所示的知识图谱)中边类型数与节点类型数之和大于2。
节点/边可以具有属性。可以理解,节点属性即节点所表示的实体(对象)的属性,边属性即边所表示的关系的属性。例如,用户节点的属性可以包括相应用户的用户标识、年龄、就职公司用户偏好等。又如,账户节点的属性可以包括相应账户的账户标识、账户类型、账户余额等,表示转账(或交易)的边的属性可以包括转账(或交易)的时间、地点、金额等。
图可以分为有向图和无向图,即,图中的边可以是有向的,也可以是无向的。有向边可以是单向的(如图1所示的居住关系),也可以是双向的(如图1所示的好友关系),以指示关系的方向性。对于图中的边均为无向边的无向图,边所表示的关系不具有方向性或者是双向的,例如好友关系。
在一些实施例中,可以利用知识图谱中的知识进行模型训练。具体的,从图谱中获取样本(包括正样本和真负样本)以用于训练机器学习模型,所述机器学习模型可用于识别对象间是否存在目标关系。模型输入可以是样本的特征数据,样本的特征数据可以基于样本中的两个节点的节点属性和/或这两个节点间的边的边属性获得,模型输出(样本的标签)可以指示对象间是否存在目标关系,例如,用“0”表示对象间不存在目标关系,用“1”表示对象间存在目标关系。仅作为示例,所述目标关系可以包括社交关系或交易关系。进一步,社交关系可以包括好友关系、同事关系、合作关系等;交易关系可以包括转账关系、购买关系等。实际应用中,数据方可以根据模型预测结果完善图数据,或者在某些业务场景中进行关系预测以基于预测结果进行相应的业务行为。例如,对于新用户,业务方可以通过训练好的模型识别该新用户与老用户之间是否存在好友关系,当识别出该新用户与某老用户之间存在好友关系,业务方可以在某社交应用(或APP)中推荐该新用户添加该老用户为好友,进而促进社交应用的推广。或者,数据方可以基于前述流程识别出新用户与老用户之间的好友关系后,可以直接在知识图谱新增相应的边来记录此好友关系,进而完善图数据。为了进行关系预测,每个样本可以包括两个节点,正样本指示相应对象之间存在目标关系,负样本指示相应对象之间不存在所述目标关系。正负样本对机器学习模型的精度影响都非常重要,标注准确的正负样本有助于提高模型的预测准确性。可以理解,当两个节点之间存在表示目标关系的边时,这两个节点就构成一个正样本。然而,当两个节点(例如,图1所示的用户节点A和用户节点D)之间不存在表示目标关系(例如,好友关系)的边时,则不能简单地认为这两个节点构成一个负样本,因为图数据可能是存在缺失的。以用户节点构成的样本为例,由于用户未授权相关数据的采集、用户未主动上传相关数据等原因,部分用户之间是否存在目标关系对于数据方而言可能是不确定的,因此数据方不会在图中为不确定其存在性的目标关系生成边。
本说明书实施例提供一种基于图的负采样方案,在获取负样本的过程中引入高支持度规则进行过滤,可以提高获取到的负样本的质量。可以理解,获取到的负样本是真负样本的概率越高,可以认为其质量越好。
图2是根据本说明书一些实施例所示的基于图的负样本获取方法的示例性流程图。流程200可以由至少一个处理器执行。在一些实施例中,流程200可以由图4所示的系统400执行。如图2所示,流程200可以包括以下步骤。
步骤210,从图中获取正样本集合。在一些实施例中,步骤210可以由正样本集合获取模块410执行。
可以理解,由于图中的边可以直接反映节点的关系(例如所述目标关系),正样本可以从图中直接获取。
在一些实施例中,正样本集合获取模块410可以从图中确定表示目标关系的目标边,并基于目标边连接的一对节点获取正样本。仅作为示例,图中的边可以保存为三元组的形式,记为“实体-关系-实体”。通过查询包含目标关系的目标三元组“实体-目标关系-实体”(即目标边),正样本集合获取模块410可以基于所述目标三元组中的一对实体(即目标边连接的一对节点)获取正样本。在一些实施例中,正样本集合获取模块410可以将二元组“实体-实体”确定为正样本。在一些实施例中,正样本集合获取模块410可以将目标三元组“实体-目标关系-实体”确定为正样本。仅作为示例,假设目标关系为好友关系,从图中确定了表示好友关系的三条边,分别为“张三-好友-李四”、“张三-好友-王五”、“李四-好友-王五”,相应地,可以将“张三-李四”、“张三-王五”、“李四-王五”或者“张三-好友-李四”、“张三-好友-王五”、“李四-好友-王五”加入正样本集合。
在一些实施例中,对于任一节点,正样本集合获取模块410可以基于该节点及其目标邻居节点获取正样本,目标邻居节点为与该节点通过目标边连接的邻居节点。仅作为示例,对于任一节点,可以将该节点的各邻居节点存储为列表形式,可称作邻居节点列表。进一步地,通过不同类型的边(对应不同关系)连接的邻居节点可以存入不同的邻居节点列表,例如,通过目标边(如好友边)连接的目标邻居节点(如好友)可以存入与目标关系(如好友关系)对应的目标邻居节点列表(如好友列表)。进而,正样本集合获取模块410可以基于节点的目标邻居节点列表获取所述正样本。
在一些实施例中,对于同构图,仅存在一种边类型(对应一种关系)。因此,图中的每条边都是表示目标关系的目标边。进而,正样本集合获取模块410可以基于具有边连接的每一对节点获取正样本。
步骤220,获取支持度满足预设条件的至少一个目标规则。在一些实施例中,步骤220可以由规则获取模块420执行。
规则在语义上可以描述为“若…,则…”、“当…时,…”等形式,即,规则可以包含条件部分和响应部分。规则的支持度可以指所述正样本集合中匹配该规则的正样本的数量,样本对规则的匹配可以指样本中的两个节点符合规则的条件部分。在一些实施例中,本说明书中,规则可以与样本(节点对)有关,例如,规则可以指示当两个节点满足一个或多个预设条件时,相应对象之间存在或较大概率存在目标关系(或者说,这两个节点较大概率能够构成正样本)。更具体地,规则可以指示当两个用户的年龄(用户节点的节点属性可以包括用户年龄)差距不超过5岁且在居住在同一城市(两个用户节点连接于同一城市节点)时,这两个用户之间存在好友关系,不妨将此规则记为L。参考图1,知识图谱中,节点A和节点B分别通过居住边连接于城市H(表示用户A和用户B都居住在城市H),节点A的节点属性中用户A的年龄为22岁,节点B的节点属性中用户B的年龄为27岁,则节点A和节点B构成的正样本与规则L是匹配的。可以理解,只要图数据反映样本中的两个节点不满足规则L中的任一预设条件,也就是说,只要样本对应的两个用户(例如,图1中的用户B和用户C、用户B和用户D、用户D和用户E)满足年龄差距超过5岁或居住于不同城市,那么该样本与规则L就是不匹配的。
目标规则可用于过滤掉假负样本(即正样本),从而保留真负样本。在本说明书一些实施例中,为了提高过滤的准确性,目标规则都是支持度满足预设条件的规则。在一些实施例中,规则获取模块420可以从处理设备的存储区介质或规则数据库中直接读取预先确定的目标规则。在又一些实施例中,规则获取模块420可以从所述图中挖掘目标规则。挖掘出的目标规则可以进行保存,如存入所述存储介质或规则数据库,也可以直接用于后续步骤。
在一些实施例中,为了在图中挖掘目标规则,规则获取模块420先可以获取多个候选规则。
在一些实施例中,候选规则可以包括属性规则,属性规则可以指示当两个节点的节点属性满足预设条件时,相应对象之间可能存在目标关系。参考前面示例的规则L,属性规则可以指示当两个用户节点对应的用户年龄相差不超过预设岁数(如5岁)时,与这两个用户节点对应的两个用户存在一定的概率为好友关系。
在一些实施例中,候选规则可以包括路径规则,路径规则指示当两个节点之间的路径满足预设条件时,相应对象之间可能存在目标关系,其中,路径包括一条或多条边。当路径规则等于1时,路径规则可以指示当两个节点之间的边表示预设关系时,相应对象之间存在目标关系,例如,路径规则可以指示当两个用户节点之间的边表示同事关系或同学关系时,相应用户之间可能存在好友关系。当路径长度大于1时,可以参考前面示例的规则L,具体地,路径规则可以指示当两个用户节点分别通过居住边连接于同一城市节点(说明相应用户居住于同一城市)时,相应用户之间可能存在好友关系。
在一些实施例中,规则获取模块420可以基于正样本集合挖掘出多个候选规则。
以属性规则为例,规则获取模块420可以根据正样本集合中各节点属性的数值情况,生成各节点属性的关联条件。进而,规则获取模块420可以对各节点属性的关联条件进行组合,以获取多个候选属性规则。仅作为示例,假设:每个样本包括一对用户节点,用户节点的节点属性包括用户年龄和用户性别;正样本集合中,用户年龄的最小值为18,最大值为60,两者相差42;正样本集合中,用户性别的取值为男或女。基于此,规则获取模块420可以生成43个用户年龄的关联条件和2个用户性别的关联条件,从而可以组合出43*2=86个候选属性规则。其中,用户年龄的关联条件为年龄差不超过n岁(n为正数且0≤n≤42),2个用户性别的关联条件分别为包括同性和异性。
以路径规则为例,规则获取模块420可以获取正样本集合中各样本的关联路径。进而,规则获取模块420可以对正样本集合中各(正)样本的关联路径进行分析,并根据分析结果获取多个候选属性规则。样本的关联路径可指该样本中的两个节点之间的路径,受限于计算设备的处理能力,获取的关联路径的长度可以设有上限,例如,获取的关联路径的长度可以被限制为不超过2。仅作为示例,一方面,规则获取模块420可以获取正样本集合中各(正)样本的长度为1的所有关联路径,即样本中的两个节点之间的边。通过确定这些边的边类型的数量(即这些边表示的关系类型的数量,记为k1),规则获取模块420可以获取k1个候选路径规则,其中,每个候选路径规则可以指示当两个节点之间的边为表示预设关系(k1种关系之一)的边时,相应对象之间可能存在目标关系。另一方面,规则获取模块420可以获取正样本集合中各(正)样本的长度为2的所有关联路径。通过确定这些路径上的边的边类型、中间节点的节点类型及其组合关系(假设有k2种路径情况),规则获取模块420可以获取k2个候选路径规则,其中,每个候选路径规则可以指示当两个节点之间的路径属于预设路径情况(k2种路径情况之一)时,相应对象之间可能存在目标关系。
获取候选规则后,规则获取模块420可以计算所述多个候选规则的支持度,并将支持度满足预设条件的候选规则确定为所述至少一个目标规则。在一些实施例中,所述预设条件可以包括支持度排名前K位(或者前预设比例),相应地,规则获取模块420可以将支持度排名前K位(或者前预设比例,如前5%、前10%等)的候选规则确定为所述至少一个目标规则。其中,K为预设数量。应当理解,支持度越高的规则排名越靠前。在一些实施例中,所述预设条件可以包括支持度达到设定阈值(或者,支持度与正样本数量之比达到预设比例),相应地,规则获取模块420可以将支持度达到设定阈值(或者,支持度与正样本数量之比达到预设比例)的候选规则确定为所述至少一个目标规则。
步骤230,从图中获取候选负样本。在一些实施例中,步骤230可以由候选负样本获取模块430执行。
可以理解,这里获取的“负样本”有可能是假负样本,即有可能是正样本,因此被称作候选负样本。
在一些实施例中,候选负样本获取模块430可以在图中随机选取两个节点并基于选取的两个节点获取候选负样本。在一些实施例中,候选负样本获取模块430可以基于正样本获取候选负样本。具体地,候选负样本获取模块430可以从图中随机选取节点,并基于该节点(例如,图1所示的用户节点A)以及正样本中的某一个节点(例如,图1中的用户节点D)获取候选负样本。
在一些实施例中,候选负样本获取模块430可以判断获取的两个节点是否属于正样本集合中的正样本,或者判断获取的两个节点之间的边是否表示目标关系。若不是,则基于这两个节点获取候选负样本。也就是说,候选负样本获取模块430可以在获取候选负样本时可以避开明显构成正样本的节点对,以提高真负样本的获取效率。
步骤240,确定候选负样本对所述至少一个目标规则的匹配情况,并根据匹配情况确定候选负样本是否为真负样本。在一些实施例中,步骤240可以由规则匹配模块440执行。
当所述至少一个目标规则的数量为1,即仅有一个目标规则时,规则匹配模块440可以确定候选负样本对该目标规则的匹配情况,当该候选负样本匹配该目标规则时,规则匹配模块440可以确定该候选负样本不是真负样本,也就是将该候选负样本确定为假负样本,因为该候选负样本极有可能是正样本。
在一些实施例中,当所述至少一个目标规则的数量大于1,即有多个目标规则时,如图3所示,步骤240可以按以下方式实现:在步骤310,规则匹配模块440可以确定候选负样本对所述多个目标规则的匹配情况。在步骤320,规则匹配模块440可以确定该候选负样本匹配是否匹配全部目标规则。进而,在步骤322,响应于确定该候选负样本匹配全部目标规则,规则匹配模块440可以将该候选负样本确定为假负样本并丢弃。否则,在步骤324,规则匹配模块440可以将该候选负样本确定为真负样本并保留。
真假负样本的辨别标准可以根据实际情况进行调整。例如,当图数据的缺失比例很低时,候选负样本是假负样本的概率很低,此时可以设置相对严格的标准(例如,“全部匹配则为假”)。在替代性的实施例中,例如,当图数据的缺失比例较高时,可以放宽标准。具体地,在步骤320,规则匹配模块440可以确定该候选负样本匹配是否匹配至少部分目标规则。响应于确定该候选负样本匹配至少部分目标规则,规则匹配模块440可以将该候选负样本确定为假负样本并丢弃。否则,在步骤340,规则匹配模块440可以将该候选负样本确定为真负样本并保留。
应当注意的是,上述有关流程的描述仅仅是为了示例和说明,而不限定本说明书的适用范围。对于本领域技术人员来说,在本说明书的指导下可以对流程进行各种修正和改变。然而,这些修正和改变仍在本说明书的范围之内。
图4是根据本说明书一些实施例所示的基于图的负样本获取系统的示例性模块图。
如图4所示,负样本获取系统400可以包括正样本集合获取模块410、规则获取模块420、候选负样本获取模块430和规则匹配模块440。
正样本集合获取模块410可以用于从图中获取正样本集合。
规则获取模块420可以用于获取支持度满足预设条件的至少一个目标规则。
候选负样本获取模块430可以用于从图中获取候选负样本。
规则匹配模块440可以用于确定候选负样本对所述至少一个目标规则的匹配情况,并根据匹配情况确定候选负样本是否为真负样本。
关于系统400及其模块的更多细节,可以在图1及其相关描述中找到。
应当理解,图4所示的系统及其模块可以利用各种方式来实现。例如,在一些实施例中,系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中,硬件部分可以利用专用逻辑来实现;软件部分则可以存储在存储器中,由适当的指令执行系统,例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用例如由各种类型的处理器所执行的软件实现,还可以由上述硬件电路和软件的结合(例如,固件)来实现。
需要注意的是,以上对于系统及其模块的描述,仅为描述方便,并不能把本说明书限制在所举实施例范围之内。可以理解,对于本领域的技术人员来说,在了解系统的原理后,可能在不背离这一原理的情况下,对各个模块进行任意组合,或者构成子系统与其他模块连接。例如,在一些实施例中,规则获取模块420和规则匹配模块440可以是一个系统中的不同模块,也可以是一个模块实现这两个模块的功能。又如,在一些实施例中,规则匹配模块440可以进一步划分为匹配情况确定模块和负样本辨别模块。诸如此类的变形,均在本说明书的保护范围之内。
本说明书实施例可能带来的有益效果包括但不限于:(1)在获取负样本的过程中引入高支持度规则进行过滤,可以提高获取到的负样本的质量;(2)获取的样本可用于训练机器学习模型,以准确识别潜在的目标关系(正样本),以进而促进图数据的完善或指导业务行为。需要说明的是,不同实施例可能产生的有益效果不同,在不同的实施例里,可能产生的有益效果可以是以上任意一种或几种的组合,也可以是其他任何可能获得的有益效果。
上文已对基本概念做了描述,显然,对于本领域技术人员来说,上述详细披露仅仅作为示例,而并不构成对本说明书实施例的限定。虽然此处并没有明确说明,本领域技术人员可能会对本说明书实施例进行各种修改、改进和修正。该类修改、改进和修正在本说明书实施例中被建议,所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
同时,本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外,本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本说明书实施例的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本说明书实施例的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本说明书实施例的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号,例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式,包括电磁形式、光形式等,或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质,该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播,包括无线电、电缆、光纤电缆、RF、或类似介质,或任何上述介质的组合。
本说明书实施例各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写,包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等,常规程序化编程语言如C语言、VisualBasic、Fortran2003、Perl、COBOL2002、PHP、ABAP,动态编程语言如Python、Ruby和Groovy,或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后种情况下,远程计算机可以通过任何网络形式与用户计算机连接,比如局域网(LAN)或广域网(WAN),或连接至外部计算机(例如通过因特网),或在云计算环境中,或作为服务使用如软件即服务(SaaS)。
此外,除非权利要求中明确说明,本说明书实施例所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用,并非用于限定本说明书实施例流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例,但应当理解的是,该类细节仅起到说明的目的,附加的权利要求并不仅限于披露的实施例,相反,权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如,虽然以上所描述的系统组件可以通过硬件设备实现,但是也可以只通过软件的解决方案得以实现,如在现有的处理设备或移动设备上安装所描述的系统。
同理,应当注意的是,为了简化本说明书实施例披露的表述,从而帮助对一个或多个发明实施例的理解,前文对本说明书实施例的描述中,有时会将多种特征归并至一个实施例、附图或对其的描述中。但是,这种披露方法并不意味着本说明书实施例对象所需要的特征比权利要求中提及的特征多。实际上,实施例的特征要少于上述披露的单个实施例的全部特征。
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料,如文章、书籍、说明书、出版物、文档等,特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外,对本申请权利要求最广范围有限制的文件(当前或之后附加于本申请中的)也除外。需要说明的是,如果本说明书附属材料中的描述、定义和/或术语的使用与本说明书所述内容有不一致或冲突的地方,以本说明书的描述、定义和/或术语的使用为准。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书实施例的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。
Claims (11)
1.一种基于图的负样本获取方法,其中,图包括节点和边,节点表示对象,边表示对象间的关系;每个样本包括两个节点,正样本指示相应对象之间存在目标关系,负样本指示相应对象之间不存在所述目标关系;所述方法包括:
从图中获取正样本集合;
获取支持度满足预设条件的至少一个目标规则,规则的支持度为所述正样本集合中匹配该规则的正样本的数量;
从图中获取候选负样本;
确定所述候选负样本对所述至少一个目标规则的匹配情况,并根据所述匹配情况确定所述候选负样本是否为真负样本。
2.如权利要求1所述的方法,其中,所述从图中获取正样本集合,包括:
从图中确定表示所述目标关系的目标边;
基于所述目标边连接的一对节点获取所述正样本。
3.如权利要求1所述的方法,其中,所述获取支持度满足预设条件的至少一个目标规则,包括:
基于所述正样本集合挖掘出多个候选规则;
计算所述多个候选规则的支持度,并将支持度满足预设条件的候选规则确定为所述至少一个目标规则。
4.如权利要求3所述的方法,其中,所述候选规则包括属性规则,所述属性规则指示当两个节点的节点属性满足预设条件时,相应对象之间可能存在所述目标关系。
5.如权利要求3所述的方法,其中,所述候选规则包括路径规则,所述路径规则指示当两个节点之间的路径满足预设条件时,相应对象之间可能存在所述目标关系,其中,所述路径包括一条或多条边。
6.如权利要求1所述的方法,其中,所述候选负样本通过以下方式获取:
从图中随机选择一个节点;
基于该节点以及所述正样本中的某一节点获取所述候选负样本。
7.如权利要求1所述的方法,其中,所述至少一个目标规则的数量大于1;所述根据所述匹配情况确定所述候选负样本是否为真负样本,包括:
响应于所述候选负样本匹配全部目标规则,将所述候选负样本确定为假负样本并丢弃;否则,将所述候选负样本确定为真负样本并保留。
8.如权利要求1所述的方法,其中,获取的样本用于训练机器学习模型,所述机器学习学习模型用于识别对象间是否存在所述目标关系。
9.如权利要求8所述的方法,其中,所述对象包括用户,所述目标关系包括社交关系或交易关系。
10.一种基于图的负样本获取系统,其中,图包括节点和边,节点表示对象,边表示对象间的关系;每个样本包括两个节点,正样本指示相应对象之间存在目标关系,负样本指示相应对象之间不存在所述目标关系;所述系统包括:
正样本集合获取模块,用于从图中获取正样本集合;
规则获取模块,用于获取支持度满足预设条件的至少一个目标规则,规则的支持度为所述正样本集合中匹配该规则的正样本的数量;
候选负样本获取模块,用于从图中获取候选负样本;
规则匹配模块,用于确定所述候选负样本对所述至少一个目标规则的匹配情况,并根据所述匹配情况确定所述候选负样本是否为真负样本。
11.一种基于图的负样本获取装置,其中,包括处理器和存储设备,所述存储设备用于存储指令,当所述处理器执行指令时,实现如权利要求1~9中任一项所述的基于图的负样本获取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310494532.4A CN116521896A (zh) | 2023-04-28 | 2023-04-28 | 一种基于图的负样本获取方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310494532.4A CN116521896A (zh) | 2023-04-28 | 2023-04-28 | 一种基于图的负样本获取方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116521896A true CN116521896A (zh) | 2023-08-01 |
Family
ID=87406075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310494532.4A Pending CN116521896A (zh) | 2023-04-28 | 2023-04-28 | 一种基于图的负样本获取方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116521896A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117808597A (zh) * | 2024-02-26 | 2024-04-02 | 支付宝(杭州)信息技术有限公司 | 一种生成风险规则的方法及装置 |
-
2023
- 2023-04-28 CN CN202310494532.4A patent/CN116521896A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117808597A (zh) * | 2024-02-26 | 2024-04-02 | 支付宝(杭州)信息技术有限公司 | 一种生成风险规则的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10642938B2 (en) | Artificial intelligence based method and apparatus for constructing comment graph | |
US20170357890A1 (en) | Computing System for Inferring Demographics Using Deep Learning Computations and Social Proximity on a Social Data Network | |
US10586609B2 (en) | Managing gene sequences | |
US10645105B2 (en) | Network attack detection method and device | |
CN110598157A (zh) | 目标信息识别方法、装置、设备及存储介质 | |
US9524526B2 (en) | Disambiguating authors in social media communications | |
US10210214B2 (en) | Scalable trend detection in a personalized search context | |
CN109189935B (zh) | 一种基于知识图谱的app传播分析方法及系统 | |
US20170357903A1 (en) | Prediction System for Geographical Locations of Users Based on Social and Spatial Proximity, and Related Method | |
CN112182230A (zh) | 一种基于深度学习的文本数据分类方法和装置 | |
CN116521896A (zh) | 一种基于图的负样本获取方法和系统 | |
CN111667923A (zh) | 数据匹配方法、装置、计算机可读介质及电子设备 | |
CN112434194A (zh) | 基于知识图谱的相似用户识别方法、装置、设备及介质 | |
CN110674360A (zh) | 一种用于数据关联图谱的构建和数据的溯源方法和系统 | |
US20190354593A1 (en) | Analytical optimization of translation and post editing | |
CN110674290B (zh) | 一种用于重叠社区发现的关系预测方法、装置和存储介质 | |
The et al. | Reanalysis of ProteomicsDB using an accurate, sensitive, and scalable false discovery rate estimation approach for protein groups | |
Ma et al. | Biogeography-based optimization in noisy environments | |
CN111385659B (zh) | 一种视频推荐方法、装置、设备及存储介质 | |
CN111444335B (zh) | 中心词的提取方法及装置 | |
JP7092194B2 (ja) | 情報処理装置、判定方法、及びプログラム | |
CN110895703A (zh) | 法律文书案由识别方法及装置 | |
CN116662555B (zh) | 一种请求文本处理方法、装置、电子设备及存储介质 | |
CN113468323A (zh) | 争议焦点类别及相似判断方法及系统及装置及推荐方法 | |
US20180307996A1 (en) | Method, one or more computer readable storage mediums, computer program product, and computer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |