CN106844407A - 基于数据集相关性的标签网络产生方法和系统 - Google Patents

基于数据集相关性的标签网络产生方法和系统 Download PDF

Info

Publication number
CN106844407A
CN106844407A CN201510896534.1A CN201510896534A CN106844407A CN 106844407 A CN106844407 A CN 106844407A CN 201510896534 A CN201510896534 A CN 201510896534A CN 106844407 A CN106844407 A CN 106844407A
Authority
CN
China
Prior art keywords
label
sample
tag
incidence coefficient
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510896534.1A
Other languages
English (en)
Other versions
CN106844407B (zh
Inventor
钟伟才
沈志宏
王群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Cloud Computing Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201510896534.1A priority Critical patent/CN106844407B/zh
Publication of CN106844407A publication Critical patent/CN106844407A/zh
Application granted granted Critical
Publication of CN106844407B publication Critical patent/CN106844407B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9562Bookmark management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于数据集相关性的标签网络产生方法和系统,以提高标签的使用效率。在本发明一些可行的实施方式中,方法包括:获取标签集合和所述标签集合对应的数据集;从所述数据集中,获取每个标签对应的样本集合;采用统计方法计算任意两个标签分别对应的两个样本集合间的关联系数;在所述两个样本集合间的关联系数满足预设条件时,在所述两个样本集合分别对应的两个标签之间建立连接,产生标签网络。

Description

基于数据集相关性的标签网络产生方法和系统
技术领域
本发明涉及计算机网络技术领域,具体涉及一种基于数据集相关性的标签网络产生方法和系统。
背景技术
标签(Tag)是一种用户/商品特征的符号表示。例如年龄段标签:25~35岁,地域标签:西安。标签呈现出两个重要特征,语义化和短文本。前者表示人能很方便地理解每个标签含义,后者表示标签本身无需再做过多文本分析等预处理工作。标签管理平台则是创建和管理标签的系统,它能够进行标签的增加、删除、更新、查找以及标签权限管理。
用户属性(User Profile)就是对用户标签化,通过多个维度的标签描述用户的整体特征,可涵盖基本属性、社交属性、兴趣爱好、消费能力、信用等。用户属性系统则是基于不同的维度为每个用户产生一个标签集合,同时定期或实时更新这个标签集合的系统。
标签管理平台和用户属性系统是数据管理平台(英文全称:DataManagement Platform,英文简称:DMP)两个核心子系统。
用户属性/标签是高附加值的数据,可以看成数据在商业价值体系下的重定义,是精确营销和个性化应用的前提。一个标签实际上表示了从数据挖掘出的知识,不同标签描述数据的方面不同,因此标签具有碎片化的特征。随着标签数目的增大,如何有效组织和管理标签从而满足人们使用、查找、更新标签等需求已成为当前DMP遇到的瓶颈问题之一。
现有的标签系统是通过标签树(Tag tree)组织管理的,标签树有时也称为标签分类树。这个树结构中叶子节点表示标签,非叶子节点表示标签分类的维度信息。例如图1描述一颗标签树,它包含9个标签{中低端手机用户,中高端手机用户,高端手机用户,低额度信用卡用户,中额度信用卡用户,高额度信用卡用户,实用型,时尚型,体验型};这9个标签来自三个维度{手机类型,用户信用卡等级,购物消费类型};这三个维度的上一层是根节点,表示标签分类的入口。从标签树的定义可知,属于不同维度间的标签是相互独立的,不存在关联。
实践发现,随着标签树目的急剧增大,采用传统标签树组织和管理标签的方法,由于效率不高,已经远远不能满足人们使用标签的需要。例如标签树中可能包含大量的标签,通常一个人只能记住少量的标签,当用户需要通过检索标签查找特定分类的用户时,不知道有哪些标签可以表征该特定分类的用户,就需要通过查看标签树来查询,但由于属于不同维度间的标签没有关联性,需要花费很多的精力才能找到需要的标签,导致查询使用的效率很低。
发明内容
本发明实施例提供一种基于数据集相关性的标签网络产生方法和系统,以提高标签的使用效率。
本发明第一方面提供一种基于数据集相关性的标签网络产生方法,该方法主要包括以下内容:首先,计算机系统例如数据管理平台(DMP),获取标签集合和所述标签集合对应的数据集,标签集合是指至少两个标签构成的集合,数据集是指至少两个样本的数据构成的集合,样本是指用户或者商品等,标签集合对应的数据集是指标签集合中的至少两个标签分别对应的多个样本的数据构成的集合;然后,根据标签和样本数据的对应关系,从所述数据集中,获取每个标签对应的样本集合,样本集合是数据集的子集,是数据集中中对应于同一个标签的多个样本的数据构成的集合;其次,计算标签之间的关联度,具体的,本文中采用统计方法计算任意两个标签分别对应的两个样本集合间的关联系数,该关联系数可以表示所述两个标签间的关联度,关联度越高表示这两个标签表征的样本越趋近于同类;再次,根据计算得到的关联系数建立标签网络,具体的,可以在两个样本集合间的关联系数满足预设条件时,在所述两个样本集合对应的两个标签之间建立连接,产生标签网络;所述标签网络表示了标签间的关联度,可被用于在标签查询时获取一个或多个与待查找标签具有一定关联度的标签。
其中,产生的标签网络可用于提高标签使用效率,例如,由于精确营销或其它需求而需要查找特定的目标用户群时,可以根据该标签网络进行用户查询,包括:首先,给定用来表征该目标用户群的若干个标签,对给定的若干个标签,由于标签网络中建立了标签间的连接,可以查询得到与所述若干个标签的关联系数在一个预设范围内的大量相关联的标签,可以认为查询得到大量相关联的标签够也能够用来表征所述目标用户群,于是,根据给定的标签和查询到的相关联的标签,从用户数据库中查询用户,就可以得到对应的目标用户群,从而满足精确营销或其它需求。在该查找过程中,用户不需要输入目标用户群的全部标签,而是只需要输入很少的若干个标签即可,也就是说,不需要用户花费很多的精力去查询所需要的标签,从而提高了查询效率。可见,上述技术方案提供了一种可以高效的组织和管理碎片化标签的机制,可以有效提高标签的使用和管理效率,包括提高标签的查询效率等。
本发明第二方面提供一种基于数据集相关性的标签网络产生系统,该系统主要包括以下功能模块:获取模块,计算模块,以及连接模块;其中,获取模块可用于获取标签集合和所述标签集合对应的数据集,以及,从所述数据集中,获取每个标签对应的样本集合;计算模块,可用于采用统计方法计算任意两个标签分别对应的两个样本集合间的关联系数;连接模块,可用于在所述两个样本集合间的关联系数满足预设条件时,在所述两个样本集合分别对应的两个标签之间建立连接,产生标签网络。其中,标签集合是指至少两个标签构成的集合,数据集是指至少两个样本的数据构成的集合,样本可以是指用户或者商品等,标签集合对应的数据集是指标签集合中的至少两个标签分别对应的多个样本的数据构成的集合;样本集合是数据集的子集,是数据集中中对应于同一个标签的多个样本的数据构成的集合;关联系数可以表示两个标签间的关联度,关联度越高表示这两个标签表征的样本越趋近于同类;标签网络表示了标签间的关联度,可被用于在标签查询时获取一个或多个与待查找标签具有一定关联度的标签。该系统产生的标签网络可用于提高标签使用效率,具体如上文所述。
本发明第三方面提供一种计算机设备,所述计算机设备包括处理器、存储器、总线和通信接口;所述存储器用于存储程序,所述程序包括计算机执行指令,所述处理器与所述存储器通过所述总线连接,当所述计算机设备运行时,所述处理器执行所述存储器存储的所述程序,以使所述计算机设备执行如本发明第一方面所述的基于数据集相关性的标签网络产生方法。可见,该计算机设备可用于实施上述方法,并取得上述方法取得的技术效果。
本发明第四方面提供一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当被包括一个或多个处理器的计算机设备执行时,使所述计算机设备执行如本发明第一方面所述基于数据集相关性的标签网络产生方法,并取得上述方法取得的技术效果。
本发明第五方面提供一种基于标签网络的标签应用方法,所述标签网络是采用本发明第一方面所述基于数据集相关性的标签网络产生方法产生的,所述基于标签网络的标签应用方法主要包括:首先,计算机系统例如数据管理平台(DMP),接收包括待查找标签的查询请求,所述查询请求用于查找所述待查找标签表征的目标用户群;从所述标签网络中查找与所述待查找标签间的关联系数满足设定条件的至少一个关联标签;需要说明,所述待查找标签与所述至少一个关联标签,都用来表征目标用户群;然后,就可以根据所述待查找标签和所述至少一个关联标签查询用户数据库,找出对应的目标用户群,从而满足精确营销或其它需求。在该查找过程中,用户不需要输入目标用户群的全部标签,而是只需要输入很少的若干个标签即可,也就是说,不需要用户花费很多的精力去查询所需要的标签,从而提高了查询效率。
本发明第六方面提供一种基于标签网络的标签应用装置,所述标签网络是采用本发明第一方面所述基于数据集相关性的标签网络产生方法产生的,所述基于标签网络的标签应用装置主要包括以下功能模块:接收模块,标签查找模块,以及,用户查找模块;其中,接收模块,可用于接收包括待查找标签的查询请求,所述查询请求用于查找所述待查找标签表征的目标用户群;所述标签查找模块,用于从所述标签网络中查找与所述待查找标签间的关联系数满足设定条件的至少一个关联标签;需要说明,所述待查找标签与所述至少一个关联标签,都用来表征目标用户群;所述用户查找模块,可用于根据所述待查找标签和所述至少一个关联标签查询用户数据库,找出对应的目标用户群,从而满足精确营销或其它需求。在该查找过程中,用户不需要输入目标用户群的全部标签,而是只需要输入很少的若干个标签即可,也就是说,不需要用户花费很多的精力去查询所需要的标签,从而提高了查询效率。
由上可见,在本发明的一些可行的实施方式中,提供了一种可以高效的组织和管理碎片化标签的机制,可以有效提高标签的使用和管理效率,包括提高标签的查询效率等。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例和现有技术描述中所需要使用的附图作简单地介绍。
图1是一颗标签树的结构示意图;
图2是本发明一个实施例提供的基于数据集相关性的标签网络产生方法的流程示意图;
图3是本发明一个实施例中建立的标签网络的结构示意图;
图4是本发明一个实施例中建立的标签树增强的混合标签网络的结构示意图;
图5a是本发明一个实施例提供的基于数据集相关性的标签网络产生系统的结构示意图;
图5b是本发明另一个实施例提供的基于数据集相关性的标签网络产生系统的结构示意图;
图6是本发明一个实施例提供的计算机设备的结构示意图;
图7是本发明一个实施例提供的基于标签网络的标签应用方法的流程示意图;
图8是本发明一个实施例提供的基于标签网络的标签应用系统的结构示意图;
图9是本发明一个实施例提供的计算机设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别不同的对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
贯穿本说明书,术语“标签”是一种样本(例如用户/商品)的特征的符号表示,或者说,所述标签是对所述样本的属性的数据表示。术语“标签集合”是指至少两个标签形成的一个集合。
术语“数据集”是指大量样本数据的集合。标签集合中的所有标签对应的所有样本的数据的集合,称为该标签集合对应的数据集。其中,一个样本可以指一个用户,当然,也可以是指商品或其它物体。
术语“样本集合”是指一个标签对应的一个或多个样本的数据的集合,样本集合是数据集的子集。
术语“标签树(Tag tree)”是按照不同的分类对大量标签进行组织形成的一种分类树,也称为标签分类树。可以采用标签树对标签集合中的所有标签进行组织管理。
本发明实施例技术方案适用于数据管理平台(英文全称:Data ManagementPlatform,英文简称:DMP)。DMP包括标签管理平台(英文全称:TagManagement Platform,英文简称:TMP)和用户属性系统(英文全称:Userprofiling system,英文简称:UPS)这两个核心子系统。DMP是无缝整合跨不同接触点的消费者数据的技术,以帮助企业对何时及如何同每个用户互动做出更好的决策。DMP能够帮助企业实现统一客户信息管理和共享,并与企业的营销推荐系统有效集成,最终帮助客户实现精准营销和个性推荐等差异化的客户服务。DMP可以应用在银行,电信运营商,网购平台等各种企业单位,用作对大量用户数据进行管理的平台。
DMP可运行在通用的计算机系统中。DMP管理的大量标签以及对应的大量数据(数据集)可以存储在计算机系统的存储介质中,DMP运行时计算机系统的处理器可以对所存储的大量标签及对应的大量数据进行组织管理,并可以通过显示装置显示出来或通过通信接口传送给其它装置。
标签作为DMP系统最基本的单位,是知识一种表示。但随着标签的数目的急剧增大,采用传统标签树组织和管理标签的方法远远不能满足人们使用标签的需要。通常一个人只能记住少量的标签,需要通过查看标签树来查询,但由于属于不同维度间标签没有关联性,需要花费很多的精力才能找到需要的标签。例如,通过标签查找特点的目标用户群时,需要先找出表征该目标用户群的大量标签,这就需要用户话费很多的精力在标签树中进行查找。
本发明的一个思路是通过建立标签间关联来提高人们使用标签和管理标签的效率。标签间的关联可以通过建立语义网络(Semantic web)来表示。
语义网络是一个有向图,其顶点表示概念,而边则表示这些概念(词)间的语义关系。语义网络用来表达复杂的概念及其之间的相互关系。产生语义网络的方法主要有:(1)人工判断,通过专家知识判断两个概念间的关系;(2)通过知识库,例如通过近义词、反义词,概念层级等知识库,建立两个概念间的关系;(3)统计方法,通过从大规模文本语料中提取词法模式,生成词对-词法模式矩阵,通过规律学习方法对隐含语义关系相似度进行计算。
语义网络是基于语义和文本信息建立的,难以实现自动化,且通常需要抓取额外的数据。因此,如何自动化和批量化建立标签间关联就成为提高使用标签效率的关键。本发明结合语义网络技术,提出一种基于数据集相关性的标签网络产生方法以及基于标签网络的标签应用方法,以实现自动化和批量化建立标签间关联,以及提高标签的使用和管理效率。
下面通过具体实施例,分别进行详细的说明。
(实施例一、)
请参考图2,本发明一个实施例提供的基于数据集相关性的标签网络产生方法,该方法可包括:
210、获取标签集合和所述标签集合对应的数据集。
其中,所述标签集合包括至少两个标签,所述数据集包括所述至少两个标签分别对应的多个样本的数据。
本发明的一个目的在于,对一个已有的标签集合,在其标签间建立关联。所说的标签集合包括至少两个标签,产生该标签集合的数据构成一数据集。该标签集合具体可以是标签树或者其它任意的标签组织形式。本文中以标签树为例进行说明,但并不对标签集合的具体形式构成限定。
例如图1所示,是一个标签树的示意图,该标签树具有一个根节点,根节点下具有多级节点,其中,每个叶子节点表示一个标签,每个非叶子节点表示一个维度。例如图1描述的一颗标签树,它包含9个标签{中低端手机用户,中高端手机用户,高端手机用户,低额度信用卡用户,中额度信用卡用户,高额度信用卡用户,实用型,时尚型,体验型};这9个标签来自三个维度{手机类型,用户信用卡等级,购物消费类型};这三个维度的上一层是根节点,表示标签分类的入口。
图1所示的标签树树一共包括三级节点,但是,标签树并不限于三级节点,也可以包括四级乃至更多级节点,无论标签树节点级数的多少,其叶子节点(即最低一级、不再有子节点的节点)表示标签,非叶子节点(即自身有子节点的节点)表示维度,此时,可能有多级维度。
220、从所述标签集合对应的数据集中,获取每个标签对应的样本集合。
其中,所述样本集合是所述数据集中对应于同一个标签的多个样本的数据的集合。
由于标签无论由规则产生还是算法产生,它都对应着一个样本集合,该样本集合是标签集合对应的全体数据集的一个子集。以针对一个用户群产生的标签树为例,该用户群的数据集合为该标签树对应的数据集,其中一个标签对应的部分用户的数据集合为该标签对应的样本集合。具体的,可以根据每个标签的产生规则或产生算法模型,从所述数据集中获取对应的样本集合,所述样本集合是所述数据集的子集。
230、采用统计方法计算任意两个标签A和B分别对应的两个样本集合DA和DB间的关联系数ρAB
其中,所述关联系数ρAB表示所述两个标签A和B间的关联度。
两个标签在语义上的关联性可以表示为两个样本集合的相关性问题。本文中,可以计算任两个标签(例如标签A和B)对应的两个样本集合(例如DA和DB)间的关联系数(本文中用ρAB标识),作为所述任两个标签间的关联系数。其中,可以通过统计方法计算所述关联系数。该关联系数也可以称为关联度。
需要说明的是,对于标签树中的同一维度下的标签,通常通过客户分群聚类产生,即同一维度下的标签一般不会有重叠的用户群,因此,一些实施例中,可以不计算标签树中的同一纬度下的两个标签之间的关联系数。例如,请参考图1,可以不计算在维度“用户信用卡等级”下的三个标签{普卡用户,金卡用户,白金卡用户}间的关联系数。换句话说,当标签集合是标签树时,本步骤中可以仅计算分属于不同维度的任两个标签A和B分别对应的两个样本集合DA和DB间的关联系数ρAB
240、在所述两个样本集合DA和DB间的关联系数ρAB满足预设条件时,在所述两个样本集合DA和DB分别对应的两个标签A和B之间建立连接,产生标签网络。其中,所述标签网络表示了标签间的关联度,被用于在标签查询时获取一个或多个与待查找标签具有一定关联度的标签。
所说的预设条件例如可以是设定一个关联系数阈值,当两个标签间的关联系数大于设定的关联系数阈值时,在所述两个标签间建立连接,以表现所述两个标签间的关联。所说的产生标签网络可以是构建无向图,所述无向图由多个顶点和用于连接顶点的边构成,其中每一个顶点表示一个标签,所述的边为没有方向的无向边;所说的建立连接例如可以是建立一条无向边,即,当两个标签间的关联系数大于设定的关联系数阈值时,在所述无向图中的表示所述两个标签的两个顶点间连接一条无向边,并以所述两个标签间的关联系数作为所述无向边的权重。
在所有具有关联的标签间建立连接之后,所述标签集合的标签和标签之间建立的连接构成一标签网络,该标签网络的节点是标签,该标签网络的无向边表示两个标签间存在关联,无向边上的权重表示两个标签间的关联系数。关联系数通常可以是一个介于0到1之间的数。
作为示例,假设将关联系数阈值设为0.2,针对图1所示标签树中的9种标签,在关联系数大于0.2的任两个标签间建立连接,构建起一个如图3所示的的标签网络,其中每一条无向边上给出了标签间的关联系数作为权重。
进一步的,若标签集合是标签树,在构建无向图的过程中,可以以所述标签树的叶子节点作为所述无向图的顶点,从而使所述标签网络和所述标签树叠加在一起,构成标签树增强的混合标签网络。作为示例,图4示出了一种标签树增强的混合标签网络,它是图1所示的标签树和图3所示的标签网络的叠加,该标签树增强的混合标签网络同时具有标签树和语义网络的优点。
特别的,某些场景中,所述标签集合可以仅包括两个标签,此时,本发明实施例技术方案用于计算该两个标签间的关联系数,以确定是否在该两个标签间建立连接。
产生的标签网络可用于提高标签使用效率,例如,由于精确营销或其它需求而需要查找特定的目标用户群时,可以根据该标签网络进行用户查询,首先,给定用来表征该目标用户群的若干个标签,对给定的若干个标签,由于标签网络中建立了标签间的连接,可以查询得到与所述若干个标签的关联系数在一个预设范围内的大量相关联的标签,可以认为查询得到大量相关联的标签够也能够用来表征所述目标用户群,于是,根据给定的标签和查询到的相关联的标签,从用户数据库中查询用户,就可以得到对应的目标用户群,从而满足精确营销或其它需求。在该查找过程中,用户不需要输入目标用户群的全部标签,而是只需要输入很少的若干个标签即可,也就是说,不需要用户花费很多的精力去查询所需要的标签,从而提高了查询效率。
可见,采用上述技术方案,使用标签时,可以通过标签间的关联方便的查找更多需要的标签,从而提高标签使用效率;基于标签的关联,可以对标签实现更高效的组织管理;并且,该技术方案采用数据集相关性来构建标签网络,不需要抓取额外的数据,容易实现自动化和批量化处理,进一步实现标签的组织管理及使用效率。可以理解,本发明实施例上述方案例如可以在计算机设备具体实施。
为便于更好的理解本发明实施例的技术方案,下面,对以下几个方面:获取每个标签对应的样本集合的方法,计算任两个标签间的关联系数的方法,以及,在两个标签之间建立连接的方法,做进一步的详细说明。
一、获取每个标签对应的样本集合
通常,可以采用产生规则或产生算法模型对样本数据进行处理,产生用来表征样本的标签。本发明实施例中,可以根据每个标签的产生规则或产生算法模型,从所述数据集中获取对应的样本集合。通常,所述数据集包含多个样本,其中每个样本有多个变量。假定设数据集D有I个样本和有J个变量{X1,…,XJ},I和J均为正整数,则数据集D通常可以表示为如下的矩阵形式:
数据集D的矩阵表示中,每一个行表示一个样本,每一列表示一个变量,其中,每个样本具有J个变量(或者说维度)。
通常标签有两种方法产生:一种是通过规则如if-then(如果-则)规则产生;另一种是通过非if-then规则,通常是一个产生算法模型例如一个神经网络算法来产生。根据标签产生方法的不同,有不同的样本集合获取方法:
(1)、
一些实施例中,对于通过产生规则产生的标签,可以从所述数据集中查找所述产生规则涉及的变量集,遍历所述数据集,找出变量落入所述变量集的所有样本,得到对应的样本集合。具体流程可以包括:
输入:
整个数据集D
某个标签A的产生规则
输出:
标签A对应的样本集合DA
核心步骤:
(1)找到规则所涉及到的变量集A={A1,…,Am},其中,m是一个不大于J的整数。
(2)遍历所有样本,找到符合规则的样本(假如一个样本的某个变量落入上述的变量集A,则认为该样本符合规则),假设满足规则的样本数目为r,不失一般性标签A对应的样本集合可以表示为:
DA是D的一个子集,其变量集为{A1,…,Am},样本数为r。
(2)、
一些实施例中,对于通过产生算法模型产生的标签,根据所述产生算法模型,进行敏感性分析,计算出所述数据集中每个变量的重要性指标,所述敏感性分析用于分析所述变量发生变化时对所述产生算法模型的影响程度,某个变量对产生算法模型的影响程度越大,则该变量的重要性指标越高;找出重要性指标大于设定的重要性阈值的变量集;遍历所述数据集,找出变量落入所述变量集的所有样本,得到对应的样本集合。具体流程可以包括:
输入:
整个数据集D
某个标签A的产生算法模型
阈值δ∈[0,1],即重要性阈值
输出:
标签A对应的样本集合DA
核心步骤:
(1)根据算法模型和敏感性分析计算出每个变量的重要性指标;
(2)找出重要性指标大于阈值δ的变量集A={A1,…,Am};
(3)遍历所有样本,找到符合的样本(假如一个样本的某个变量落入上述的变量集A,则认为该样本符合),假设符合的样本数目为r,不失一般性标签A对应的样本集合可以表示为:
DA是D的一个子集,其变量集为{A1,…,Am},样本数为r。
(3)、
下面举例说明,假设有两个变量X1和X2,其中:
X1:用户1个月访问(运营商)竞争对手网站使用的流量;
X2:用户访问(运营商)竞争对手网站次数;
标签:潜在离网用户;
产生标签规则:如果X1>50MB且X2>30;
则标签对应样本集合例如下表1所示。
表1
80 50
100 35
60 40
56 48
其中,变量集为{X1,X2}。
二、计算任两个标签间的关联系数
本发明实施例中,可以计算任意两个标签例如A和B分别对应的两个样本集合DA和DB间的关联系数,作为所述任两个标签间的关联系数,关联系数用ρAB来表示。通常,所述样本集合可以表示为一个数据矩阵,所述样本集合的的每一行表示一个样本,所述样本集合的每一列表示一个变量。
一些实施例中,所述计算任两个标签对应的两个样本集合间的关联系数的步骤,可以包括:根据任两个标签对应的两个样本集合,确定所述两个标签对应的两个变量集;计算所述两个变量集的交集;获取所述交集中的任一个变量在所述两个样本集合中各自对应的列,得到两个列;采用统计方法计算所述两个列的列间关联系数;根据得到的所述列间关联系数,计算所述两个样本集合间的关联系数。具体流程可以包括:
假设有两个标签A和B,对应的两个样本集合分别为DA和DB,其变量集分别表示为A={A1,…,Am}和B={B1,…,Bn},样本数分别为r和s,变量数分别为m和n,且m和n均为正整数,对应的样本集合可分别表示为:
计算标签A和B的关联系数过程如下。
输入:
标签A和B对应的样本集合DA和DB
标签A和B对应的变量集合{A1,…,Am}和{B1,…,Bn}
输出:
标签A和B间的关联系数ρAB
核心步骤:
(1)根据任两个标签对应的两个样本集合,确定所述两个标签对应的两个变量集;计算所述两个变量集的交集。例如,对于标签A和B,计算A和B对应的两个变量集A={A1,…,Am}和B={B1,…,Bn}交集,C={C1,…,Cl}={A1,…,Am}∩{B1,…,Bm}。其中,l是所述交集的变量数,且l为正整数
(2)获取所述交集中的任一个变量在所述两个样本集合中各自对应的列,得到两个列。例如,对任意变量c∈{C1,…,Cl},获取c在DA和DB中分别对应的列,记为
(3)采用统计方法计算所述两个列的列间关联系数,以计算的关联系数为例。
●如果c是连续变量,可根据所述两个列各自的样本数,平均值和标准方差,计算列间关联系数,例如,可以采用如下公式:
其中且n1,M1,SD1分别为的样本数,平均值和标准方差;且n2,M2,SD2分别为的样本数,平均值和标准方差。
●如果c是分类变量,可根据两个列各自的频数分布和样本数,计算列间关联系数,例如,采用如下算法:
计算的频数分布,分别记为f1,…,fN和g1,…,gN,其中N为变量c的类别数;fi和gi分别是的频数分布中的第i个值,i为不小于1且不大于N的整数;假设n1和n2分别为的样本数,且n1>n2计算公式为:
其中
采用上述算法,可以计算得到交集中的所有变量在所述两个样本集合中各自对应的列的列间关联系数。
(4)计算DA和DB的关联系数ρAB
其中,m和n分别是样本集合DA和DB的变量数,均为正整数。
可见,本步骤中,是对得到的所有的列间关联系数求和,将求得的和分别除以所述两个样本集合的变量数得到两个均值,所述两个均值的和的一半即为所述两个样本集合间的关联系数。
需要说明的是,上述步骤(1)-(4)中的具体公式仅为示例,根据本发明的思想,可以参考上述公式得到其它公式,均应涵盖在本发明保护范围之内。
三、在两个标签之间建立连接
本发明一些实施例中,可以用<V,E,W>表示标签网络,其中V表示标签(节点)的集合,E表示边(即无向边)的集合,W表示边的权重。在这一步骤中,可以根据两标签间的关联系数和阈值构建标签网络,其中,若标签集合为标签树,还可以结合标签树,构建标签树增强的混合标签网络。
构建标签树增强的混合标签网络的算法如下:
输入:
任意两个标签的关联系数
阈值θ∈[0,1],即关联系数阈值
标签分类树T
输出:
标签树增强的混合标签网络<T,V,E,W>
核心步骤:
(1)判断两个标签A和B是否有连接:如果ρAB>θ,则标签A和B之间有连接,在标签A和B间连接一条边,该边可以是无向边,并设定其权重为ρAB;否则标签A和B之间没有连接,不建立无向边。
(2)重复上述过程,直到完成任意两个标签间是否有连接的判断,以及无向边建立和权重设定,从而得到标签网络<V,E,W>。例如图3所示。
(3)把网络<V,E,W>叠加到标签分类树T,生成标签树增强的混合标签网络<T,V,E,W>。例如图4所示。叠加方式可以是,以所述标签树的叶子节点表示的标签作为顶点,在有连接的叶子节点之间连接一条边,从而得到标签树增强的混合标签网络。
综上,对本发明实施例提供的一种基于数据集相关性的标签网络产生方法进行详细说明。该方法提供了一种组织和管理碎片化标签的机制,并提供了一种查询关联标签的能力。
由上可见,在本发明的一些可行的实施方式中,公开了一种基于数据集相关性的标签网络产生系统,该技术方案通过计算标签间的关联系数,在关联系数满足预设条件的两个标签之间建立连接,产生一标签网络,该标签网络能够反映标签间的关联关系,从而提供了一种可以高效的组织和管理碎片化标签的机制,可以有效提高标签的使用和管理效率,包括提高标签的查询效率等。
(实施例二、)
为了更好的实施本发明实施例的上述方案,下面还提供用于配合实施上述方案的相关装置。
请参考图5a,本发明一个实施例提供的基于数据集相关性的标签网络产生系统500,该系统500可包括:
获取模块510,用于获取标签集合和所述标签集合对应的数据集;以及,从所述标签集合对应的数据集中,获取每个标签对应的样本集合;所述标签集合包括至少两个标签,所述数据集包括所述至少两个标签分别对应的多个样本的数据;所述样本集合是所述数据集中对应于同一个标签的多个样本的数据的集合;
计算模块520,用于采用统计方法计算任意两个标签A和B分别对应的两个样本集合DA和DB间的关联系数ρAB,所述关联系数ρAB表示所述两个标签A和B间的关联度;
连接模块530,用于在所述两个样本集合DA和DB间的关联系数ρAB满足预设条件时,在所述两个样本集合DA和DB分别对应的两个标签A和B之间建立连接,产生标签网络;所述标签网络表示了标签间的关联度,被用于在标签查询时获取一个或多个与待查找标签具有一定关联度的标签。
其中,所述的获取模块510,计算模块520,以及连接模块530,可以是软件模块,能够在计算机系统的处理器中执行;也可以是特定的集成电路。
请参考图5b,一些实施例中,所述数据集有多个样本,其中每个样本有多个变量,所述获取模块510包括:第一获取单元5101,用于对于通过产生规则产生的标签,从所述数据集中查找所述产生规则涉及的变量集,遍历所述数据集,找出变量落入所述变量集的所有样本,得到对应的样本集合。
请参考图5b,一些实施例中,所述数据集有多个样本,其中每个样本有多个变量,所述获取模块510包括:第二获取单元5102,用于对于通过产生算法模型产生的标签,根据所述产生算法模型,进行敏感性分析,计算出所述数据集中每个变量的重要性指标,所述敏感性分析用于分析所述变量发生变化时对所述产生算法模型的影响程度,找出重要性指标大于设定的重要性阈值的变量集;遍历所述数据集,找出变量落入所述变量集的所有样本,得到对应的样本集合。
请参考图5b,一些实施例中,所述样本集合为一个数据矩阵,所述样本集合的的每一行表示一个样本,所述样本集合的每一列表示一个变量;所述计算模块520包括:
确定单元5201,用于根据任意两个标签A和B分别对应的两个样本集合DA和DB,确定所述两个标签A和B分别对应的两个变量集A={A1,…,Am}和B={B1,…,Bn},m和n分别所述两个变量集的变量数,且m和n均为正整数;
第一计算单元5202,用于计算所述两个变量集的交集C={C1,…,Cl}={A1,…,Am}∩{B1,…,Bm},l是所述交集的变量数,且l为正整数;
获取单元5203,用于获取所述交集中的任一个变量c在所述两个样本集合DA和DB中各自对应的列得到两个列;
第二计算单元5204,用于采用统计方法计算所述两个列的列间关联系数
第三计算单元5205,用于根据所述列间关联系数计算所述两个样本集合间的关联系数ρAB
一些实施例中,所述第二计算单元5204,具体用于:
记所述交集中的任一个变量c在所述两个样本集合中各自对应的列分别为记所述两个列的列间关联系数为则:
如果c是连续变量,采用如下公式计算:
其中且n1,M1,SD1分别为的样本数,平均值和标准方差;且n2,M2,SD2分别为的样本数,平均值和标准方差;
如果c是分类变量,采用如下公式计算:
其中
其中,N为变量c的类别数,n1的样本数,n2的样本数,且n1>n2,fi和gi分别是的频数分布中的第i个值,i为不小于1且不大于N的整数。
一些实施例中,所述第三计算单元5205,具体用于对得到的所有列间关联系数求和,将求得的和分别除以所述两个样本集合的变量数得到两个均值,所述两个均值的和的一半即为所述两个样本集合间的关联系数。
一些实施例中,所述连接模块530,具体用于采用如下公式计算所述两个样本集合间的关联系数ρAB
一些实施例中,所述连接模块530,具体用于构建无向图,所述无向图由多个顶点和用于连接顶点的边构成,其中每一个顶点表示一个标签,所述的边为没有方向的无向边;当两个标签间的关联系数大于设定的关联系数阈值时,在所述无向图中的所述两个标签间连接一条无向边,以所述两个标签间的关联系数作为所述无向边的权重。
一些实施例中,所述标签集合为标签树,所述标签树的叶子节点表示标签,所述标签树的根节点以外的非叶子节点表示维度,所述连接模块530,还用于在构建无向图的过程中,以所述标签树的叶子节点作为所述无向图的顶点,使所述标签网络和所述标签树叠加在一起,构成标签树增强的混合标签网络。
一些实施例中,所述计算模块520具体用于计算分属于不同维度的任两个标签A和B分别对应的两个样本集合DA和DB间的关联系数。
可以理解,本发明实施例的基于数据集相关性的标签网络产生系统的各个功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可参照上述方法实施例中的相关描述,此处不再赘述。
由上可见,在本发明的一些可行的实施方式中,公开了一种基于数据集相关性的标签网络产生系统,该技术方案通过计算标签间的关联系数,在关联系数满足预设条件的两个标签之间建立连接,产生一标签网络,该标签网络能够反映标签间的关联关系,从而提供了一种可以高效的组织和管理碎片化标签的机制,可以有效提高标签的使用和管理效率,包括提高标签的查询效率等。
(实施例三、)
请参考图6,本发明实施例还提供一种计算机设备600,可包括:
所述计算机设备600可包括处理器610、存储器620、总线630和通信接口640;所述存储器620用于存储程序650,所述程序650包括计算机执行指令,所述处理器610与所述存储器620通过所述总线630连接,当所述计算机设备600运行时,所述处理器610执行所述存储器620存储的所述程序650,以使所述计算机设备600执行如上文方法实施例所述的基于数据集相关性的标签网络产生方法。
本发明实施例二公开的标签网络产生系统,可以由计算机设备600实现,标签网络产生系统中的获取模块510,计算模块520,以及连接模块530,可以由处理器610执行程序650中特定的功能单元来实现。
所述总线630可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线或外部设备互连(Peripheral Component,简称为PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线中的一种或多种。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
所述存储器620用于存储可执行程序代码,该程序代码包括计算机操作指令。所述存储器620可以包含高速RAM(Ramdom Access Memory)存储器。可选地,所述存储器620还可以还包括非易失性存储器(non-volatile memory)。例如所述存储器620可以包括磁盘存储器。
所述处理器610可以是一个中央处理器(Central Processing Unit,简称为CPU),或者所述处理器610可以是特定集成电路(Application Specific IntegratedCircuit,简称为ASIC),或者所述处理器610可以是被配置成实施本发明实施例的一个或多个集成电路。
可以理解,本发明实施例的计算机设备的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可参照上述方法实施例中的相关描述,此处不再赘述。
由上可见,在本发明的一些可行的实施方式中,公开了一种计算机设备,该计算机设备可执行上文方法实施例所述的方法,取得该方法实施例所能取得的技术效果。
(实施例四、)
本发明实施例还提供一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当被包括一个或多个处理器的计算机设备执行时,使所述计算机设备执行如上文方法实施例所述的基于数据集相关性的标签网络产生方法。
(实施例五、)
本发明实施例还提供一种基于标签网络的标签应用方法,所述标签网络包括多个标签,其中任意两个具有关联的标签之间建立有连接,所说的关联是指两个标签间的关联系数满足预设条件。请参考图3,是一种标签网络的示意图,该标签网络包括多个节点(或称为顶点)和多条连接节点的边(具体可以是没有方向的无向边),多个节点例如可以包括9个标签{中低端手机用户,中高端手机用户,高端手机用户,低额度信用卡用户,中额度信用卡用户,高额度信用卡用户,实用型,时尚型,体验型},这9个标签lieu来自三个维度{手机类型,用户信用卡等级,购物消费类型};标签网络的每一条边上还设有权重,权重是该边连接的两个标签间的关联系数。
需要说明的是,所述标签网络可以是采用本发明实施例一所述基于数据集相关性的标签网络产生方法产生的;关于标签网络的产生流程以及更多的说明,请参考前文实施例一所述的基于数据集相关性的标签网络产生方法,此处不再赘述。
如图7所示,所述基于标签网络的标签应用方法可以包括:
701、接收包括待查找标签的查询请求,所述查询请求用于查找所述待查找标签表征的目标用户群;
702、从所述标签网络中查找与所述待查找标签间的关联系数满足设定条件的至少一个关联标签;
703、根据所述待查找标签和所述至少一个关联标签查询用户数据库,找出对应的目标用户群。
可选的,方法还包括:对找出的所述目标用户群执行特定的管理操作。
采用上述技术方案,由于精确营销或其它需求而需要查找特定的目标用户群时,可以根据该标签网络进行用户查询,包括:首先,给定用来表征该目标用户群的若干个标签,对给定的若干个标签,由于标签网络中建立了标签间的连接,可以查询得到与所述若干个标签的关联系数在一个预设范围内的大量相关联的标签,可以认为查询得到大量相关联的标签够也能够用来表征所述目标用户群,于是,根据给定的标签和查询到的相关联的标签,从用户数据库中查询用户,就可以得到对应的目标用户群,从而满足精确营销或其它需求。在该查找过程中,用户不需要输入目标用户群的全部标签,而是只需要输入很少的若干个标签即可,也就是说,不需要用户花费很多的精力去查询所需要的标签,从而提高了查询效率。
(实施例六、)
本发明实施例还提供一种基于标签网络的标签应用装置,所述标签网络包括多个标签,其中任意两个具有关联的标签之间建立有连接,所说的关联是指两个标签间的关联系数满足预设条件,所述标签网络可以是采用本发明实施例一所述基于数据集相关性的标签网络产生方法产生的;本发明实施例装置可用于实施上述实施例五所述的基于标签网络的标签应用方法。
如图8所示,所述基于标签网络的标签应用装置800可以包括:
接收模块801,用于接收包括待查找标签的查询请求,所述查询请求用于查找所述待查找标签表征的目标用户群;
标签查找模块802,用于从所述标签网络中查找与所述待查找标签间的关联系数满足设定条件的至少一个关联标签;
用户查找模块803,用于根据所述待查找标签和所述至少一个关联标签查询用户数据库,找出对应的目标用户群。
可选的,装置800还可以包括:
执行模块804,用于对找出的所述目标用户群执行特定的管理操作。
其中,装置800的各个功能模块,可以是软件模块,能够在计算机系统的处理器中执行;也可以是特定的集成电路。
采用上述技术方案,由于精确营销或其它需求而需要查找特定的目标用户群时,可以根据该标签网络进行用户查询,包括:首先,给定用来表征该目标用户群的若干个标签,对给定的若干个标签,由于标签网络中建立了标签间的连接,可以查询得到与所述若干个标签的关联系数在一个预设范围内的大量相关联的标签,可以认为查询得到大量相关联的标签够也能够用来表征所述目标用户群,于是,根据给定的标签和查询到的相关联的标签,从用户数据库中查询用户,就可以得到对应的目标用户群,从而满足精确营销或其它需求。在该查找过程中,用户不需要输入目标用户群的全部标签,而是只需要输入很少的若干个标签即可,也就是说,不需要用户花费很多的精力去查询所需要的标签,从而提高了查询效率。
(实施例七、)
请参考图9,本发明实施例还提供一种计算机设备900,可包括:
所述计算机设备900可包括处理器910、存储器920、总线930和通信接口940;所述存储器920用于存储程序950,所述程序950包括计算机执行指令,所述处理器910与所述存储器920通过所述总线930连接,当所述计算机设备900运行时,所述处理器910执行所述存储器920存储的所述程序950,以使所述计算机设备900执行如上文方法实施例所述的基于标签网络的标签应用方法。
本发明实施例六公开的标签应用系统,可以由计算机设备900实现,标签应用系统中的接收模块801可以由通信接口940实现,标签查找模块802,用户查找模块803,执行模块804这三个模块可以由处理器910执行程序950中特定的功能单元来实现。
所述总线930可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线或外部设备互连(Peripheral Component,简称为PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线中的一种或多种。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
所述存储器920用于存储可执行程序代码,该程序代码包括计算机操作指令。所述存储器920可以包含高速RAM(Ramdom Access Memory)存储器。可选地,所述存储器920还可以还包括非易失性存储器(non-volatile memory)。例如所述存储器920可以包括磁盘存储器。
所述处理器910可以是一个中央处理器(Central Processing Unit,简称为CPU),或者所述处理器610可以是特定集成电路(Application Specific IntegratedCircuit,简称为ASIC),或者所述处理器910可以是被配置成实施本发明实施例的一个或多个集成电路。
可以理解,本发明实施例的计算机设备的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可参照上述方法实施例中的相关描述,此处不再赘述。
由上可见,在本发明的一些可行的实施方式中,公开了一种计算机设备,该计算机设备可执行上文方法实施例所述的方法,取得该方法实施例所能取得的技术效果。
(实施例八、)
本发明实施例还提供一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当被包括一个或多个处理器的计算机设备执行时,使所述计算机设备执行如上文方法实施例所述的基于标签网络的标签应用方法。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述的部分,可以参见其它实施例的相关描述。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上对本发明实施例所提供的基于数据集相关性的标签网络产生方法和系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (24)

1.一种基于数据集相关性的标签网络产生方法,其特征在于,包括:
获取标签集合和所述标签集合对应的数据集,所述标签集合包括至少两个标签,所述数据集包括所述至少两个标签分别对应的多个样本的数据,所述标签是对所述样本的属性的数据表示;
从所述数据集中,获取每个标签对应的样本集合,所述样本集合是所述数据集中对应于同一个标签的多个样本的数据的集合;
采用统计方法计算任意两个标签A和B分别对应的两个样本集合DA和DB间的关联系数ρAB,所述关联系数ρAB表示所述两个标签A和B间的关联度;
在所述两个样本集合DA和DB间的关联系数ρAB满足预设条件时,在所述两个样本集合DA和DB分别对应的两个标签A和B之间建立连接,产生标签网络;所述标签网络表示了标签间的关联度,被用于在标签查询时获取一个或多个与待查找标签具有一定关联度的标签。
2.根据权利要求1所述的方法,其特征在于,所述数据集包含多个样本,其中每个样本有多个变量,所述获取每个标签对应的样本集合包括:
对于通过产生规则产生的标签,从所述数据集中查找所述产生规则涉及的变量集,遍历所述数据集,找出变量落入所述变量集的所有样本,得到对应的样本集合。
3.根据权利要求1所述的方法,其特征在于,所述数据集包含多个样本,其中每个样本有多个变量,所述获取每个标签对应的样本集合包括:
对于通过产生算法模型产生的标签,根据所述产生算法模型,进行敏感性分析,计算出所述数据集中每个变量的重要性指标,所述敏感性分析用于分析所述变量发生变化时对所述产生算法模型的影响程度;
找出重要性指标大于设定的重要性阈值的变量集;
遍历所述数据集,找出变量落入所述变量集的所有样本,得到对应的样本集合。
4.根据权利要求1所述的方法,其特征在于,所述样本集合为一个数据矩阵,所述样本集合的每一行表示一个样本,所述样本集合的每一列表示一个变量;所述采用统计方法计算任意两个标签A和B分别对应的两个样本集合DA和DB间的关联系数ρAB包括:
根据任意两个标签A和B分别对应的两个样本集合DA和DB,确定所述两个标签A和B分别对应的两个变量集A={A1,…,Am}和B={B1,…,Bn},m和n分别所述两个变量集的变量数,且m和n均为正整数;
计算所述两个变量集的交集C={C1,…,Cl}={A1,…,Am}∩{B1,…,Bm},l是所述交集的变量数,且l为正整数;
获取所述交集中的任一变量c在所述两个样本集合DA和DB中各自对应的列
采用统计方法计算所述两个列的列间关联系数
根据所述列间关联系数计算所述两个样本集合间的关联系数ρAB
5.根据权利要求4所述的方法,其特征在于,所述采用统计方法计算所述两个列的列间关联系数包括:
如果c是连续变量,采用如下公式计算:
&rho; A B c = M 1 - M 2 S D / n 1 n 2 n 1 + n 2
其中 S D = ( n 1 - 1 ) SD 1 2 + ( n 2 - 1 ) SD 2 2 n 1 + n 2 - 1
其中,n1,M1,SD1分别为的样本数,平均值和标准方差;且n2,M2,SD2分别为的样本数,平均值和标准方差;
如果c是分类变量,采用如下公式计算:
&rho; A B c = &chi; 2 n 2 ( N - 1 )
其中 &chi; 2 = &Sigma; i ( g i n 2 - f i n 1 ) 2 f i n 1
其中,N为变量c的类别数,n1的样本数,n2的样本数,且n1>n2,fi和gi分别是的频数分布中的第i个值,i为不小于1且不大于N的整数。
6.根据权利要求4所述的方法,其特征在于,所述根据所述列间关联系数,计算所述两个样本集合间的关联系数包括:
采用如下公式计算所述两个样本集合间的关联系数ρAB
&rho; A B = 1 2 ( &Sigma; c &rho; A B c / m + &Sigma; c &rho; A B c / n ) .
7.根据权利要求1至6中任一所述的方法,其特征在于,所述在关联系数满足预设条件的两个标签之间建立连接包括:
构建无向图,所述无向图由多个顶点和用于连接顶点的边构成,其中每一个顶点表示一个标签,所述的边为没有方向的无向边;当两个标签间的关联系数大于设定的关联系数阈值时,在所述无向图中的所述两个标签间连接一条无向边,以所述两个标签间的关联系数作为所述无向边的权重。
8.根据权利要求7所述的方法,其特征在于,所述标签集合为标签树,所述标签树的叶子节点表示标签,所述标签树的根节点以外的非叶子节点表示维度,在构建无向图的过程中,以所述标签树的叶子节点作为所述无向图的顶点,使所述标签网络和所述标签树叠加在一起,构成标签树增强的混合标签网络。
9.根据权利要求8所述的方法,其特征在于,所述采用统计方法计算任意两个标签A和B分别对应的两个样本集合DA和DB间的关联系数ρAB包括:
计算分属于不同维度的任两个标签A和B分别对应的两个样本集合DA和DB间的关联系数。
10.一种基于数据集相关性的标签网络产生系统,其特征在于,包括:
获取模块,用于获取标签集合和所述标签集合对应的数据集;以及,从所述数据集中,获取每个标签对应的样本集合;所述标签集合包括至少两个标签,所述数据集包括所述至少两个标签分别对应的多个样本的数据;所述样本集合是所述数据集中对应于同一个标签的多个样本的数据的集合;
计算模块,用于采用统计方法计算任意两个标签A和B分别对应的两个样本集合DA和DB间的关联系数ρAB,所述关联系数ρAB表示所述两个标签A和B间的关联度;
连接模块,用于在所述两个样本集合DA和DB间的关联系数ρAB满足预设条件时,在所述两个样本集合DA和DB分别对应的两个标签A和B之间建立连接,产生标签网络;所述标签网络表示了标签间的关联度,被用于在标签查询时获取一个或多个与待查找标签具有一定关联度的标签。
11.根据权利要求10所述的系统,其特征在于,所述数据集有多个样本,其中每个样本有多个变量,所述获取模块包括:
第一获取单元,用于对于通过产生规则产生的标签,从所述数据集中查找所述产生规则涉及的变量集,遍历所述数据集,找出变量落入所述变量集的所有样本,得到对应的样本集合。
12.根据权利要求10所述的系统,其特征在于,所述数据集有多个样本,其中每个样本有多个变量,所述获取模块包括:
第二获取单元,用于对于通过产生算法模型产生的标签,根据所述产生算法模型,进行敏感性分析,计算出所述数据集中每个变量的重要性指标,所述敏感性分析用于分析所述变量发生变化时对所述产生算法模型的影响程度,找出重要性指标大于设定的重要性阈值的变量集;遍历所述数据集,找出变量落入所述变量集的所有样本,得到对应的样本集合。
13.根据权利要求10所述的系统,其特征在于,所述样本集合为一个数据矩阵,所述样本集合的的每一行表示一个样本,所述样本集合的每一列表示一个变量;所述计算模块包括:
确定单元,用于根据任意两个标签A和B分别对应的两个样本集合DA和DB,确定所述两个标签A和B分别对应的两个变量集A={A1,…,Am}和B={B1,…,Bn},m和n分别所述两个变量集的变量数,且m和n均为正整数;
第一计算单元,用于计算所述两个变量集的交集C={C1,…,Cl}={A1,…,Am}∩{B1,…,Bm},l是所述交集的变量数,且l为正整数;
获取单元,用于获取所述交集中的任一个变量c在所述两个样本集合DA和DB中各自对应的列
第二计算单元,用于采用统计方法计算所述两个列的列间关联系数
第三计算单元,用于根据所述列间关联系数计算所述两个样本集合间的关联系数ρAB
14.根据权利要求13所述的系统,其特征在于,所述第二计算单元,具体用于:
如果c是连续变量,采用如下公式计算:
&rho; A B c = M 1 - M 2 S D / n 1 n 2 n 1 + n 2
其中 S D = ( n 1 - 1 ) SD 1 2 + ( n 2 - 1 ) SD 2 2 n 1 + n 2 - 1
其中,n1,M1,SD1分别为的样本数,平均值和标准方差;且n2,M2,SD2分别为的样本数,平均值和标准方差;
如果c是分类变量,采用如下公式计算:
&rho; A B c = &chi; 2 n 2 ( N - 1 )
其中 &chi; 2 = &Sigma; i ( g i n 2 - f i n 1 ) 2 f i n 1
其中,N为变量c的类别数,n1的样本数,n2的样本数,且n1>n2,fi和gi分别是的频数分布中的第i个值,i为不小于1且不大于N的整数。
15.根据权利要求13所述的系统,其特征在于,
所述第三计算单元,具体用于采用如下公式计算所述两个样本集合间的关联系数ρAB
&rho; A B = 1 2 ( &Sigma; c &rho; A B c / m + &Sigma; c &rho; A B c / n ) .
16.根据权利要求10至15中任一所述的系统,其特征在于,
所述连接模块,具体用于构建无向图,所述无向图由多个顶点和用于连接顶点的边构成,其中每一个顶点表示一个标签,所述的边为没有方向的无向边;当两个标签间的关联系数大于设定的关联系数阈值时,在所述无向图中的所述两个标签间连接一条无向边,以所述两个标签间的关联系数作为所述无向边的权重。
17.根据权利要求16所述的系统,其特征在于,所述标签集合为标签树,所述标签树的叶子节点表示标签,所述标签树的根节点以外的非叶子节点表示维度,所述连接模块,还用于在构建无向图的过程中,以所述标签树的叶子节点作为所述无向图的顶点,使所述标签网络和所述标签树叠加在一起,构成标签树增强的混合标签网络。
18.根据权利要求17所述的系统,其特征在于,
所述计算模块具体用于计算分属于不同维度的任两个标签A和B分别对应的两个样本集合DA和DB间的关联系数。
19.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器、总线和通信接口;所述存储器用于存储程序,所述程序包括计算机执行指令,所述处理器与所述存储器通过所述总线连接,当所述计算机设备运行时,所述处理器执行所述存储器存储的所述程序,以使所述计算机设备执行如权利要求1至9任一项所述的基于数据集相关性的标签网络产生方法。
20.一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当被包括一个或多个处理器的计算机设备执行时,使所述计算机设备执行如权利要求1至9任一项所述基于数据集相关性的标签网络产生方法。
21.一种基于标签网络的标签应用方法,其特征在于,所述标签网络是采用权利要求1至9中任一所述基于数据集相关性的标签网络产生方法产生的,所述基于标签网络的标签应用方法包括:
接收包括待查找标签的查询请求,所述查询请求用于查找所述待查找标签表征的目标用户群;
从所述标签网络中查找与所述待查找标签间的关联系数满足设定条件的至少一个关联标签;
根据所述待查找标签和所述至少一个关联标签查询用户数据库,找出对应的目标用户群。
22.根据权利要求21所述的方法,其特征在于,还包括:
对找出的所述目标用户群执行特定的管理操作。
23.一种基于标签网络的标签应用装置,其特征在于,所述标签网络是采用权利要求1至9中任一所述基于数据集相关性的标签网络产生方法产生的,所述基于标签网络的标签应用装置包括:
接收模块,用于接收包括待查找标签的查询请求,所述查询请求用于查找所述待查找标签表征的目标用户群;
标签查找模块,用于从所述标签网络中查找与所述待查找标签间的关联系数满足设定条件的至少一个关联标签;
用户查找模块,用于根据所述待查找标签和所述至少一个关联标签查询用户数据库,找出对应的目标用户群。
24.根据权利要求23所述的装置,其特征在于,还包括:
执行模块,用于对找出的所述目标用户群执行特定的管理操作。
CN201510896534.1A 2015-12-07 2015-12-07 基于数据集相关性的标签网络产生方法和系统 Active CN106844407B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510896534.1A CN106844407B (zh) 2015-12-07 2015-12-07 基于数据集相关性的标签网络产生方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510896534.1A CN106844407B (zh) 2015-12-07 2015-12-07 基于数据集相关性的标签网络产生方法和系统

Publications (2)

Publication Number Publication Date
CN106844407A true CN106844407A (zh) 2017-06-13
CN106844407B CN106844407B (zh) 2020-03-10

Family

ID=59152086

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510896534.1A Active CN106844407B (zh) 2015-12-07 2015-12-07 基于数据集相关性的标签网络产生方法和系统

Country Status (1)

Country Link
CN (1) CN106844407B (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766422A (zh) * 2017-09-12 2018-03-06 中国科学院信息工程研究所 一种签到数据的映射方法及设备
CN108388650A (zh) * 2018-02-28 2018-08-10 百度在线网络技术(北京)有限公司 基于需求的搜索处理方法、装置和智能设备
CN108629624A (zh) * 2018-05-07 2018-10-09 马婕 一种社群画像的神经网络标签的实现方法及其营销信息推送方法
CN108763278A (zh) * 2018-04-11 2018-11-06 口碑(上海)信息技术有限公司 用户特征标签的统计方法以及装置
CN109582808A (zh) * 2018-11-22 2019-04-05 北京锐安科技有限公司 一种用户信息查询方法、装置、终端设备和存储介质
WO2019080844A1 (zh) * 2017-10-24 2019-05-02 华为技术有限公司 数据推理方法、装置及计算机设备
CN109961094A (zh) * 2019-03-07 2019-07-02 北京达佳互联信息技术有限公司 样本获取方法、装置、电子设备及可读存储介质
CN110046247A (zh) * 2019-03-06 2019-07-23 阿里巴巴集团控股有限公司 样本数据处理方法及装置、模型训练方法及设备
CN110414562A (zh) * 2019-06-26 2019-11-05 平安科技(深圳)有限公司 X光片的分类方法、装置、终端及存储介质
CN110929868A (zh) * 2019-11-18 2020-03-27 中国银行股份有限公司 一种数据处理方法、装置、电子设备及可读存储介质
CN112991063A (zh) * 2021-04-01 2021-06-18 执立信息科技(上海)有限公司 企业股权穿透方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750375A (zh) * 2012-06-21 2012-10-24 武汉大学 一种基于随机游走的服务和标签推荐方法
CN103218436A (zh) * 2013-04-17 2013-07-24 中国科学院自动化研究所 一种融合用户类别标签的相似问题检索方法及装置
US20140282843A1 (en) * 2013-03-15 2014-09-18 Mcafee, Inc. Creating and managing a network security tag

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750375A (zh) * 2012-06-21 2012-10-24 武汉大学 一种基于随机游走的服务和标签推荐方法
US20140282843A1 (en) * 2013-03-15 2014-09-18 Mcafee, Inc. Creating and managing a network security tag
CN103218436A (zh) * 2013-04-17 2013-07-24 中国科学院自动化研究所 一种融合用户类别标签的相似问题检索方法及装置

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107766422A (zh) * 2017-09-12 2018-03-06 中国科学院信息工程研究所 一种签到数据的映射方法及设备
WO2019080844A1 (zh) * 2017-10-24 2019-05-02 华为技术有限公司 数据推理方法、装置及计算机设备
CN108388650A (zh) * 2018-02-28 2018-08-10 百度在线网络技术(北京)有限公司 基于需求的搜索处理方法、装置和智能设备
CN108763278A (zh) * 2018-04-11 2018-11-06 口碑(上海)信息技术有限公司 用户特征标签的统计方法以及装置
CN108629624A (zh) * 2018-05-07 2018-10-09 马婕 一种社群画像的神经网络标签的实现方法及其营销信息推送方法
CN109582808A (zh) * 2018-11-22 2019-04-05 北京锐安科技有限公司 一种用户信息查询方法、装置、终端设备和存储介质
CN110046247B (zh) * 2019-03-06 2023-04-07 创新先进技术有限公司 样本数据处理方法及装置、模型训练方法及设备
CN110046247A (zh) * 2019-03-06 2019-07-23 阿里巴巴集团控股有限公司 样本数据处理方法及装置、模型训练方法及设备
CN109961094A (zh) * 2019-03-07 2019-07-02 北京达佳互联信息技术有限公司 样本获取方法、装置、电子设备及可读存储介质
CN109961094B (zh) * 2019-03-07 2021-04-30 北京达佳互联信息技术有限公司 样本获取方法、装置、电子设备及可读存储介质
CN110414562A (zh) * 2019-06-26 2019-11-05 平安科技(深圳)有限公司 X光片的分类方法、装置、终端及存储介质
CN110414562B (zh) * 2019-06-26 2023-11-24 平安科技(深圳)有限公司 X光片的分类方法、装置、终端及存储介质
CN110929868A (zh) * 2019-11-18 2020-03-27 中国银行股份有限公司 一种数据处理方法、装置、电子设备及可读存储介质
CN110929868B (zh) * 2019-11-18 2023-10-10 中国银行股份有限公司 一种数据处理方法、装置、电子设备及可读存储介质
CN112991063A (zh) * 2021-04-01 2021-06-18 执立信息科技(上海)有限公司 企业股权穿透方法

Also Published As

Publication number Publication date
CN106844407B (zh) 2020-03-10

Similar Documents

Publication Publication Date Title
CN106844407A (zh) 基于数据集相关性的标签网络产生方法和系统
CN105335409B (zh) 一种目标用户的确定方法、设备和网络服务器
CN108287864B (zh) 一种兴趣群组划分方法、装置、介质及计算设备
CN109919316A (zh) 获取网络表示学习向量的方法、装置和设备及存储介质
CN109918560A (zh) 一种基于搜索引擎的问答方法和装置
CN103577549A (zh) 一种基于微博标签的人群画像系统和方法
CN103020302A (zh) 基于复杂网络的学术核心作者挖掘及相关信息抽取方法和系统
Seret et al. A new SOM-based method for profile generation: Theory and an application in direct marketing
CN104268292A (zh) 画像系统的标签词库更新方法
Brandt et al. On the discriminative power of tournament solutions
CN104965863A (zh) 一种对象聚类方法和装置
Yin et al. A real-time dynamic concept adaptive learning algorithm for exploitability prediction
Han et al. DeepRouting: A deep neural network approach for ticket routing in expert network
Li et al. Predicting best-selling new products in a major promotion campaign through graph convolutional networks
Zhang et al. Precise marketing of precision marketing value chain process on the H group line based on big data
CN113656690A (zh) 产品推荐方法、装置、电子设备及可读存储介质
Wan et al. Discovering typed communities in mobile social networks
Li et al. A distributed data fabric architecture based on metadate knowledge graph
CN111179101A (zh) 一种基于共享网络的互联网保险营销数据处理系统
CN109885745A (zh) 一种用户画像方法、装置、可读存储介质及终端设备
CN111460300A (zh) 网络内容推送方法、装置及存储介质
Demuynck et al. On the revealed preference analysis of stable aggregate matchings
Dai et al. Approach for text classification based on the similarity measurement between normal cloud models
Lee et al. On finding fine-granularity user communities by profile decomposition
CN112434126A (zh) 一种信息处理方法、装置、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220208

Address after: 550025 Huawei cloud data center, jiaoxinggong Road, Qianzhong Avenue, Gui'an New District, Guiyang City, Guizhou Province

Patentee after: Huawei Cloud Computing Technologies Co.,Ltd.

Address before: 518129 Bantian HUAWEI headquarters office building, Longgang District, Guangdong, Shenzhen

Patentee before: HUAWEI TECHNOLOGIES Co.,Ltd.

TR01 Transfer of patent right