CN111581378B

CN111581378B - 基于交易数据建立用户消费标签体系的方法和装置

Info

Publication number: CN111581378B
Application number: CN202010347746.5A
Authority: CN
Inventors: 鲁转丽; 罗涛; 施佳子; 郭志军
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2024-04-26
Anticipated expiration: 2040-04-28
Also published as: CN111581378A

Abstract

本发明提供的基于交易数据建立用户消费标签体系的方法和装置，该方法包括：根据预先给定的场景信息从交易数据中获取各场景的交易记录，交易记录包括多个文本；逐一将所述各场景的交易记录中的各文本转换成对应的字典向量；采用TF‑IDF模型将各文本的字典向量转换为对应的TF‑IDF向量；将所述场景的交易记录中的各文本对应的TF‑IDF向量输入LDA模型，得到所述场景的标签；将各场景的标签汇总得到所述用户消费标签体系。其中，通过TF‑IDF的关键词提取算法和LDA算法结合生成文本的标签，充分利用现有交易数据，实现用户消费标签体系的自动化有源提取，种类全面，准确性高。

Description

基于交易数据建立用户消费标签体系的方法和装置

技术领域

本发明涉及计算机应用技术领域，尤其涉及一种基于交易数据建立用户消费标签体系的方法和装置。

背景技术

目前人类社会正处在一个瞬息万变的互联网时代，信息发展迅猛，用户的消费场景、支付方式和消费观念也有很大变化，越来越多的人使用电子支付方式，产生了海量的交易数据；比如使用信用卡以提前透支消费，并产生海量的信用卡消费数据。在大数据时代，大量某类数据的产生意味着可以进行数据挖掘，提取到有用的信息。对于银行或电商来说，为有效挖掘用户的消费类型，构建不同场景的用户消费标签体系显得尤为重要。

但是，目前常用的标签体系都是人们根据日常生活经验建立的，种类不全面，准确性不高。

发明内容

针对现有技术中的问题，本发明提供一种基于交易数据建立用户消费标签体系的方法和装置、电子设备以及计算机可读存储介质，能够至少部分地解决现有技术中存在的问题。

为了实现上述目的，本发明采用如下技术方案：

第一方面，提供一种基于交易数据建立用户消费标签体系的方法，包括：

根据预先给定的场景信息从交易数据中获取各场景的交易记录，所述交易记录包括多个文本；

逐一将所述各场景的交易记录中的各文本转换成对应的字典向量；

采用TF-IDF模型将各文本的字典向量转换为对应的TF-IDF向量；

将所述场景的交易记录中的各文本对应的TF-IDF向量输入LDA模型，得到所述场景的标签；

将各场景的标签汇总得到所述用户消费标签体系。

进一步地，所述将各场景的标签汇总得到所述用户消费标签体系之前，还包括：

根据所述场景的标签搜索所述交易数据得到补充文本；

将所述补充文本与所述场景的交易记录合并去重后，重复执行将文本转换成对应的字典向量、将字典向量转换为TF-IDF向量转换以及将所述场景的各文本对应的TF-IDF向量输入LDA模型得到场景的标签的步骤，直至本次得到的场景的标签与上一次得到的场景的标签相比满足预设要求，将本次得到的场景的标签用于汇总得到所述用户消费标签体系。

将所述场景的标签发送给研发人员，所述场景的标签包括多个关键词以及各个关键词的权重，以使所述研发人员根据所述场景的标签进行语义提升确定所述场景的最终标签；

获取研发人员确定的最终标签作为所述场景的标签，用于汇总得到所述用户消费标签体系。

进一步地，所述将一场景的交易记录中的各文本转换成对应的字典向量，包括：

对所述场景的交易记录中的各文本进行分词；

对各文本分词后的词语进行编号；

利用Doc2Bow模型将编号后的各文本的词语转换成对应的字典向量。

第二方面，提供一种基于交易数据建立用户消费标签体系的装置，包括：

场景数据获取模块，根据预先给定的场景信息从交易数据中获取各场景的交易记录，所述交易记录包括多个文本；

字典向量转换模块，逐一将所述各场景的交易记录中的各文本转换成对应的字典向量；

TF-IDF向量转换模块，采用TF-IDF模型将各文本的字典向量转换为对应的TF-IDF向量；

LDA模块，将所述场景的交易记录中的各文本对应的TF-IDF向量输入LDA模型，得到所述场景的标签；

标签汇总模块，将各场景的标签汇总得到所述用户消费标签体系。

进一步地，还包括：

再检索模块，根据所述场景的标签搜索所述交易数据得到补充文本；

循环提取模块，将所述补充文本与所述场景的交易记录合并去重后，重复执行将文本转换成对应的字典向量、将字典向量转换为TF-IDF向量转换以及将所述场景的各文本对应的TF-IDF向量输入LDA模型得到场景的标签的步骤，直至本次得到的场景的标签与上一次得到的场景的标签相比满足预设要求，将本次得到的场景的标签用于汇总得到所述用户消费标签体系。

进一步地，还包括：

标签发送模块，将所述场景的标签发送给研发人员，所述场景的标签包括多个关键词以及各个关键词的权重，以使所述研发人员根据所述场景的标签进行语义提升确定所述场景的最终标签；

标签获取模块，获取研发人员确定的最终标签作为所述场景的标签，用于汇总得到所述用户消费标签体系。

进一步地，所述字典向量转换模块包括：

分词单元，对所述场景的交易记录中的各文本进行分词；

编号单元，对各文本分词后的词语进行编号；

转换单元，利用Doc2Bow模型将编号后的各文本的词语转换成对应的字典向量。

第三方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述的基于交易数据建立用户消费标签体系的方法的步骤。

第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述的基于交易数据建立用户消费标签体系的方法的步骤。

本发明提供的基于交易数据建立用户消费标签体系的方法和装置、电子设备以及计算机可读存储介质，该方法包括：根据预先给定的场景信息从交易数据中获取各场景的交易记录，所述交易记录包括多个文本；逐一将所述各场景的交易记录中的各文本转换成对应的字典向量；采用TF-IDF模型将各文本的字典向量转换为对应的TF-IDF向量；将所述场景的交易记录中的各文本对应的TF-IDF向量输入LDA模型，得到所述场景的标签；将各场景的标签汇总得到所述用户消费标签体系。其中，通过词频-逆文本频率(term frequency-inverse document frequency，以下简称TF-IDF)的关键词提取算法和用隐含狄利克雷分布(Latent Dirichlet Allociation，以下简称LDA)算法结合生成文本的标签，充分利用现有交易数据，实现用户消费标签体系的自动化有源提取，种类全面，准确性高。

为让本发明的上述和其他目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附图式，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本发明实施例中的服务器S1与客户端设备B1之间的架构示意图；

图2为本发明实施例中的服务器S1、客户端设备B1及数据库服务器S2之间的架构示意图；

图3是本发明实施例中的基于交易数据建立用户消费标签体系的方法的流程示意图一；

图4示出了LDA模型结构；

图5是本发明实施例中的基于交易数据建立用户消费标签体系的方法的流程示意图二；

图6是本发明实施例中的基于交易数据建立用户消费标签体系的方法的流程示意图三；

图7示出了图3、图5和图6中步骤S200的具体步骤；

图8是本发明实施例中的基于交易数据建立用户消费标签体系的装置的结构框图；

图9为本发明实施例电子设备的结构图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

目前常用的标签体系都是人们根据日常生活经验建立的，种类不全面，准确性不高。

为至少部分解决现有技术中的上述技术问题，本发明实施例提供一种基于交易数据建立用户消费标签体系的方法，通过TF-IDF的关键词提取算法和LDA算法结合生成文本的标签，充分利用现有交易数据，实现用户消费标签体系的自动化有源提取，种类全面，准确性高。

有鉴于此，本申请提供了一种基于交易数据建立用户消费标签体系的装置，该装置可以为一种服务器S1，参见图1，该服务器S1可以与至少一个客户端设备B1通信连接，所述客户端设备B1可以将交易数据发送至所述服务器S1，所述服务器S1可以在线接收所述交易数据。所述服务器S1可以在线或者离线对获取的交易数据进行预处理，根据预先给定的场景信息从交易数据中获取各场景的交易记录，所述交易记录包括多个文本；逐一将所述各场景的交易记录中的各文本转换成对应的字典向量；采用TF-IDF模型将各文本的字典向量转换为对应的TF-IDF向量；将所述场景的交易记录中的各文本对应的TF-IDF向量输入LDA模型，得到所述场景的标签；将各场景的标签汇总得到所述用户消费标签体系。而后，所述服务器S1可以将用户消费标签体系在线发送至所述客户端设备B1。所述客户端设备B1可以在线接收所述用户消费标签体系。

另外，参见图2，所述服务器S1还可以与至少一个数据库服务器S2通信连接，所述数据库服务器S2用于存储预先给定的场景信息以及TF-IDF模型、LDA模型等会。

可以理解的是，所述客户端设备B1可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中，所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。

在实际应用中，进行建立用户消费标签体系的部分可以在如上述内容所述的服务器S1侧执行，即，如图1所示的架构，也可以所有的操作都在所述客户端设备B1中完成，且该所述客户端设备B1可以直接与数据库服务器S2进行通信连接。具体可以根据所述客户端设备B1的处理能力，以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备B1中完成，所述客户端设备B1还可以包括处理器，用于进行建立用户消费标签体系的具体处理。

所述服务器与所述客户端设备之间可以使用任何合适的网络协议进行通信，包括在本申请提交日尚未开发出的网络协议。所述网络协议例如可以包括TCP/IP协议、UDP/IP协议、HTTP协议、HTTPS协议等。当然，所述网络协议例如还可以包括在上述协议之上使用的RPC协议(Remote Procedure Call Protocol，远程过程调用协议)、REST协议(Representational State Transfer，表述性状态转移协议)等。

图3是本发明实施例中的基于交易数据建立用户消费标签体系的方法的流程示意图一；如图3所示，该基于交易数据建立用户消费标签体系的方法可以包括以下内容：

步骤S100：根据预先给定的场景信息从交易数据中获取各场景的交易记录，所述交易记录包括多个文本；

其中，交易数据可为海量信用卡消费数据；另外，场景信息可包括餐饮、购物、交通等，可通过大量数据分析并结合日常生活以及其他APP给出，文本是一种短文本，如河源市源城区惠源盛商店。

步骤S200：逐一将所述各场景的交易记录中的各文本转换成对应的字典向量；

具体地，针对某一场景的交易记录包括多个文本，将各个文本转换成对应的字典向量。

步骤S300：采用TF-IDF模型将各文本的字典向量转换为对应的TF-IDF向量；

具体地，TF-IDF能够评估一字词对于语料库中的其中一份文本的重要程度，字词的重要性随着它在文本中出现的次数成正比增加，但是同时会随着它在语料库中出现的频率成反比下降。简而言之TF-IDF的主要思想是：如果某个单词在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。词频TF表示词条在文档中出现的频率，用f_i,j表示，其计算公式为：

式中，n_i,j为词条t_i在文本d_j中出现的次数，分母表示文本d_j中所有词条出现的次数总和。

IDF是词条普遍性的度量，表示词条的类别区分能力，用q_i表示，其计算公式为：

式中，|D|为文本总数，分母为包含词条t_i的文本数量。

TF-IDF值由f_i,j值和q_i值相乘得到。

如果某一文本内的高频词条在文本集合(或称语料库)中呈现低频率，该词条便可在TF-IDF值上产生高权重，从而将其挑选出来作为区分度较高的词条。比如说对于以餐饮搜索的数据，里面的文本集必然包含很多餐饮，那么TF(餐饮)较大但是IDF(餐饮)较小，使得权重适中。对于新出的一个文本词里面有饭店，TF(饭店)较小IDF(饭店)较大，这就使得我们的TF-IDF(饭店)的值也不会太低，LDA模型进行训练后，以较高的权重出现在场景标签结果里面。

步骤S400：将所述场景的交易记录中的各文本对应的TF-IDF向量输入LDA模型，得到所述场景的标签；

值得说明的是，LDA主题概率生成模型是一种非监督学习的机器学习方法，该模型分为词条、主题和文档三层结构，用于获得大规模文档中潜在的主题分布信息，对于一篇文档，LDA采用词袋模型将文本表示为词频向量，模型中词条出现的位置及先后顺序与最终得到的主题分布无关，LDA是在PLSA模型的基础上加贝叶斯框架得到的，并且加入Dirichlet先验分布影响，LDA模型结构如图4所示：

其中，θ_m表示文本m的主题分布，a表示θ_m的先验分布，z_m,n表示从θ_m中取样生成文档m的第n个词的主题，表示词分布，β表示词分布的先验分布，w_m,n表示最终生成第m篇文档第n个词语，N_m表示文档m中的词条总数，共有M篇文档。

LDA中所有变量的联合分布计算公式为：

式中，p(w_m,n|z_m,n)为在主题下采样词条的概率，在第m篇文档中各词条的概率分布公式为：

步骤S500：将各场景的标签汇总得到所述用户消费标签体系。

其中，在对一个场景执行上述步骤S200至步骤S400的过程获得该场景的标签后，对其它场景均执行上述步骤S200至步骤S400的过程，以便获得步骤S100中所有场景的标签，将所有场景的标签汇总后得到用户消费标签体系。

通过采用上述技术方案，利用TF-IDF的关键词提取算法和LDA算法结合生成文本的标签，充分利用现有交易数据，实现用户消费标签体系的自动化有源提取，种类全面，准确性高。

在一个可选的实施例中，参见图5，该基于交易数据建立用户消费标签体系的方法还可以包括以下内容：

在步骤S400之后，执行以下步骤：

步骤S600：判断本次得到的场景的标签与上一次得到的场景的标签相比满足预设要求。

其中，预设要求可为二者相同或者相似度达到预设值，或者根据人工经验规则确定标签合理的规则。

若是，执行步骤S500；否则，执行步骤S700。

步骤S700：根据所述场景的标签搜索所述交易数据得到补充文本；

其中，场景的标签可包含多个关键词，在补充搜索时，可以对所有关键词进行搜索，或者根据各关键词的出现次数，挑选一部分关键词进行搜索，也可以有人工对关键词进行筛选。

步骤S800：将补充文本与所述场景的交易记录合并去重，作为所述场景的新的交易记录，并返回步骤S200，重复执行步骤S200至步骤S400,直至本次得到的场景的标签与上一次得到的场景的标签相比满足预设要求，将本次得到的场景的标签用于汇总得到所述用户消费标签体系。

其中，通过采用场景的标签进行补充检索后的数据补充各场景的交易记录，能够丰富数据的粒度，进一步提高标签体系的全面性和准确性。

在一个可选的实施例中，参见图6，该基于交易数据建立用户消费标签体系的方法还可以包括以下内容：

步骤S900：将所述场景的标签发送给研发人员，所述场景的标签包括多个关键词以及各个关键词的权重，以使所述研发人员根据所述场景的标签进行语义提升确定所述场景的最终标签。

例如，可以根据关键词及其对应的权重将“咖啡，茶馆，饮料奶茶，奶吧”合并给出标签“饮品”。

步骤S1000：获取研发人员确定的最终标签作为所述场景的标签，用于汇总得到所述用户消费标签体系。

其中，在对各场景的标签进行汇总之前，结合人工经验规则筛选出合理的关键词形成场景标签，能够得到更为精确的场景标签，进一步提高标签体系的全面性和准确性。

在一个可选的实施例中，参见图7，该步骤S200可以包括以下内容：

步骤S210：对所述场景的交易记录中的各文本进行分词；

具体地，利用字典表和停用词表对文本进行分词。

值得说明的是，可通过大量数据分析后构建字典表和停用词表，以便更加精确地进行分词。

步骤S220：对各文本分词后的词语进行编号；

具体地，可采用顺序标号的方式，对各文本分词后的词语进行编号。

步骤S230：利用Doc2Bow模型将编号后的各文本的词语转换成对应的字典向量。

通过采用上述技术方案，能够有效将各场景的文本转换为对应的字典向量，利于后续处理。

本发明实施例提供的基于交易数据建立用户消费标签体系的方法，从海量交易数据(比如互联网金融大数据)中抽取有效信息，并进行数据清洗和初步预处理，比如去除、删除噪音数据或者不完整的数据)，自动提取每个场景下面的权重高的关键词，即利用LDA+TF-IDF，产生场景标签。提取出的场景标签作为关键字(比如对场景标签中排序前30的关键词人工筛选出10个关键词)补充搜索，丰富的数据粒度，然后再次进行场景标签提取，得到初步标签结果，结合人工经验规则筛选出合理的关键词形成场景标签，实现文本的有效挖掘。

为了使本领域技术人员更好地理解本申请，本发明以信用卡的用户“交易场所”数据为实例，对本申请进行详细说明：从贷记帐户历史明细表获取不同场景下(餐饮，购物，交通等)交易的数据；基于字典表和停用词表，使用分词工具对数据进行分词处理；对分词后的数据使用doc2bow模型生成每个文本对应的字典向量。使用TF-IDF模型将字典向量转换成TF-IDF向量，最后使用LDA模型产生文本的场景标签。具体地：

1.信用卡消费数据获取

从贷记帐户历史明细表获取“交易场所简称”的数据，例如：“14/60期广州丽之兹摄影有限公司”。“交易场所简称”数据包含支付方式和消费地点信息。为避免重复数据对模型训练造成影响，需优先去除重复数据。示例数据如表1：

表1

8/24期支付宝-广州超鸿电子科技有限公司
	河源市源城区惠源盛商店
3/12期深圳市龙岗区平湖顺美达汽车维修部
	成都市金牛区落地福鞋业经营部
24/36期汕头市原野汽车销售有限公司
	驿家时尚商务酒店
财付通-青岛鸿福祥低价超市
	财付通-潍坊市坊子区人民医院
楚雄市鹿城镇胖太太服装店
	支付宝-韩华姜
太原圣飞鞋行(太原盛亚服装A22)
	财付通-新城区老边饺子馆
3/18期财付通-中国石化销售有限公司
	财付通-小米长春万豪世纪广场
财付通-人参蛋糕
	驻马店市驿城区众信时尚宾馆
财付通-槑壹刻
	4/12期西安市秦艺轩旅游纪念品零售
财付通-超哥的店
	财付通-新月尚雅静居寺店

2.场景标签初步确定

利用预建立的或者预获取的字典表和停用词表对该场景下的每个文本进行分词，对分词后的数据利用Doc2bow(BOW词袋模型)进行短文本向量化(由于交易数据一般短文本且字符长度不超过40，因此可使用Doc2bow生成每个词对应字典向量)。而后将各文本对应的字典向量输入TF-IDF模型转为TF-IDF向量；而后将所述场景的各文本对应的TF-IDF向量输入LDA模型，得到所述场景的标签；

另外，还可以对获取来的数据首先进行预处理，通过多次关键词提取，根据语料库的特殊性，构建具有消费交易场所简称内容特点的停用词和字典表。比如“支付宝-青岛赛百味餐饮管理服务有限…”，通过分词工具后变成“支付宝-/青岛/赛/百味/餐饮/管理/服务/有限…”。但可以将“赛百味”作为字典，这样经过分词后“赛百味”这第三个字依然没有被分开。由于不对支付方式做标注，所以对于支付宝、理财通等支付方式的词语直接加到停用词表中，对于类似青岛这种地名、有限公司这种通用名的词语，也需要加到停用词中，因为这些词语不能反映用户的这笔消费记录的用途。这样的分词效果就变成“赛百味/餐饮/管理/服务”。通过不断地丰富字典表和停用词表，这样使得经过分词后的词语有效性得到提高。

字典表示例：词语-词频-词性，一般默认值，用户的交易场所简称的数据以名词为主，因此是n，可以根据特定环境换虚词，动词。

以下数据为例：

1.从交易数据中获取到的某场景的交易记录：

8/24期支付宝-广州超鸿电子科技有限公司

河源市源城区惠源盛商店

3/12期深圳市龙岗区平湖顺美达汽车维修部

成都市金牛区落地福鞋业经营部

24/36期汕头市原野汽车销售有限公司

驿家时尚商务酒店

财付通-青岛鸿福祥低价超市

财付通-潍坊市坊子区人民医院

楚雄市鹿城镇胖太太服装店

支付宝-韩华姜

太原圣飞鞋行(太原盛亚服装A22)

财付通-新城区老边饺子馆

3/18期财付通-中国石化销售有限公司

财付通-小米长春万豪世纪广场

财付通-人参蛋糕

......

2.经过分词工具后得到：

[['电子科技'],['河源市','源城区','惠源盛'],['平湖','顺美','汽车'],['落地','鞋业'],['汕头市','原野','汽车'],['驿家','时尚','商务酒店'],['低价','超市'],['坊子区','医院'],['楚雄市','太太','服装店'],['韩华'],['鞋行','盛亚','A22'],['新城区','饺子馆'],[],['小米','万豪'],,....]

3.对每个词典编号：

dictionary.token2id:{'电子科技':0,'惠源盛':1,'河源市':2,'源城区':3,'平湖':4,'汽车':5,'顺美':6,'落地':7,'鞋业':8,'原野':9,'汕头市':10,'商务酒店':11,'时尚':12,'驿家':13,'低价':14,'超市':15,'医院':16,'坊子区':17,'太太':18,'服装店':19,'楚雄市':20,'韩华':21,'A22':22,'盛亚':23,'鞋行':24,'新城区':25,'饺子馆':26,'万豪':27,'小米':28,'人参':29,'蛋糕':30,'众信':31,'宾馆':32,'驿城区':33,'秦艺轩':34,'纪念品':35,'超哥':36,]

4.使用Doc2Bow将各文本生成对应的字典向量，建立语料库：语料库是一组向量，向量中的元素是一个二元组(编号，频次数)对应分词后文档中的每一个词

[[(0,1)],[(1,1),(2,1),(3,1)],[(4,1),(5,1),(6,1)],[(7,1),(8,1)],[(5,1),(9,1),(10,1)],[(11,1),(12,1),(13,1)],[(14,1),(15,1)],[(16,1),(17,1)],[(18,1),(19,1),(20,1)],[(21,1)],[(22,1),(23,1),(24,1)],[(25,1),(26,1)],[],[(27,1),(28,1)],[(29,1),(30,1)],[(12,1),]...

值得说明的是：8/24期支付宝-广州超鸿电子科技有限公司，关键词电子科技：编号0，出现了1次，因此是[0,1],

驿家时尚商务酒店分词后是['驿家','时尚','商务酒店']，可以看到编号是'商务酒店':11,'时尚':12,'驿家':13,对应向量是[(11,1),(12,1),(13,1)]。

5.使用TF-IDF模型将各文本的字典向量转换为对应的TF-IDF向量[(0,1.0)]

[(1,0.5773502691896257),(2,0.5773502691896257),(3,0.5773502691896257)]

[(4,0.626818992419667),(5,0.46281303080616354),(6,0.626818992419667)]

[(7,0.7071067811865476),(8,0.7071067811865476)]

[(5,0.46281303080616354),(9,0.626818992419667),(10,0.626818992419667)]

[(11,0.6168267210460883),(12,0.48892698064952655),(13,0.6168267210460883)]

[(14,0.8630401248449628),(15,0.5051353708735816)]

[(16,0.7071067811865476),(17,0.7071067811865476)]

[(18,0.6168267210460883),(19,0.48892698064952655),(20,0.6168267210460883)]

[(21,1.0)]

[(22,0.5773502691896257),(23,0.5773502691896257),(24,0.5773502691896257)]

[(25,0.7071067811865476),(26,0.7071067811865476)]

6.将所述场景的交易记录中的各文本对应的TF-IDF向量输入LDA模型，得到所述场景的标签；LDA模型参数估计设置数1，特征词数20，具体设置参数可根据数据量调整，其他参数默认值，得到的场景标签如下：

(0,'0.010*"超市"+0.005*"美容"+0.004*"汽车"+0.004*"百货"+0.004*"便利店"+0.004*"酒店"+0.004*"食品店"+0.004*"服装店"+0.004*"餐厅"+0.004*"茶叶"+0.004*"大商"+0.004*"时尚"+0.004*"鞋店"+0.004*"大酒店"+0.003*"电器"+0.003*"常州"+0.003*"小米"+0.003*"建材"+0.003*"桂林"+0.003*"南岭"')

7.在LDA模型输出的这些词语里面筛选关键词作为进一步搜索数据的依据，进一步搜索的数据与之前该场景的交易记录合并数据集并去重(因为进一步搜索的结果有部分数据会和原来的重复)，使得的数据集的粒度更细。

例如对于餐饮的初步标签，很明显看出有快餐类，海鲜类，咖啡类，料理小吃，因此需要把“饭店”“料理”“咖啡”等作为搜索的关键词，再搜索出一些数据，合并到以前的数据集并去重。再进行LDA标签提取，直到增加数据时的LDA提取标签结果不变为止亦或者人工评判认为需要的关键词合理了。

8.对合并去重后的数据集重复上述步骤进行场景标签提取，产生的标签通过人工语义生成最后的标签。

最后确定了64类二级消费类型标签(二级消费类型标签是对一级消费标签进一步细化，例如：一级消费标签“餐饮”可详细分为“正餐”、“饮品”、“零食”等)以“餐饮”为例，最后确定的餐饮标签体系如表2：

表2

基于同一发明构思，本申请实施例还提供了一种基于交易数据建立用户消费标签体系的装置，可以用于实现上述实施例所描述的方法，如下面的实施例所述。由于基于交易数据建立用户消费标签体系的装置解决问题的原理与上述方法相似，因此基于交易数据建立用户消费标签体系的装置的实施可以参见上述方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图8是本发明实施例中的基于交易数据建立用户消费标签体系的装置的结构框图一。如图8所示，该基于交易数据建立用户消费标签体系的装置具体包括：场景数据获取模块10、字典向量转换模块20、TF-IDF向量转换模块30、LDA模块40以及标签汇总模块50。

场景数据获取模块10根据预先给定的场景信息从交易数据中获取各场景的交易记录，所述交易记录包括多个文本；

字典向量转换模块20逐一将所述各场景的交易记录中的各文本转换成对应的字典向量；

TF-IDF向量转换模块30采用TF-IDF模型将各文本的字典向量转换为对应的TF-IDF向量；

LDA模块40将所述场景的交易记录中的各文本对应的TF-IDF向量输入LDA模型，得到所述场景的标签；

标签汇总模块50将各场景的标签汇总得到所述用户消费标签体系。

在一个可选的实施例中，该基于交易数据建立用户消费标签体系的装置还包括：再检索模块、循环提取模块。

再检索模块根据所述场景的标签搜索所述交易数据得到补充文本；

循环提取模块将所述补充文本与所述场景的交易记录合并去重后，重复执行将文本转换成对应的字典向量、将字典向量转换为TF-IDF向量转换以及将所述场景的各文本对应的TF-IDF向量输入LDA模型得到场景的标签的步骤，直至本次得到的场景的标签与上一次得到的场景的标签相比满足预设要求，将本次得到的场景的标签用于汇总得到所述用户消费标签体系。

在一个可选的实施例中，基于交易数据建立用户消费标签体系的装置还包括：标签发送模块以及标签获取模块。

标签发送模块将所述场景的标签发送给研发人员，所述场景的标签包括多个关键词以及各个关键词的权重，以使所述研发人员根据所述场景的标签进行语义提升确定所述场景的最终标签；

标签获取模块获取研发人员确定的最终标签作为所述场景的标签，用于汇总得到所述用户消费标签体系。

在一个可选的实施例中，所述字典向量转换模块20可以包括：分词单元、编号单元以及转换单元，

分词单元对所述场景的交易记录中的各文本进行分词；

编号单元对各文本分词后的词语进行编号；

转换单元利用Doc2Bow模型将编号后的各文本的词语转换成对应的字典向量。

上述实施例阐明的装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为电子设备，具体的，电子设备例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

在一个典型的实例中电子设备具体包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现下述步骤：

采用TF-IDF模型将各文本的字典向量转换为对应的TF-IDF向量；

将各场景的标签汇总得到所述用户消费标签体系。

下面参考图9，其示出了适于用来实现本申请实施例的电子设备600的结构示意图。

如图9所示，电子设备600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM))603中的程序而执行各种适当的工作和处理。在RAM603中，还存储有系统600操作所需的各种程序和数据。CPU601、ROM602、以及RAM603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡，调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装如存储部分608。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现下述步骤：

采用TF-IDF模型将各文本的字典向量转换为对应的TF-IDF向量；

将各场景的标签汇总得到所述用户消费标签体系。

在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于交易数据建立用户消费标签体系的方法，其特征在于，包括：

采用TF-IDF模型将各文本的字典向量转换为对应的TF-IDF向量；

判断本次得到的场景的标签与上一次得到的场景的标签相比满足预设要求，所述预设要求为二者相同或者相似度达到预设值，若满足，则将本次得到的场景的标签用于汇总得到用户消费标签体系；

若不满足，则根据所述场景的标签搜索所述交易数据得到补充文本；

2.根据权利要求1所述的基于交易数据建立用户消费标签体系的方法，其特征在于，将各场景的标签汇总得到所述用户消费标签体系之前，还包括：

3.根据权利要求1所述的基于交易数据建立用户消费标签体系的方法，其特征在于，所述将各场景的交易记录中的各文本转换成对应的字典向量，包括：

对所述场景的交易记录中的各文本进行分词；

对各文本分词后的词语进行编号；

4.一种基于交易数据建立用户消费标签体系的装置，其特征在于，包括：

标签汇总模块，将各场景的标签汇总得到所述用户消费标签体系；

循环提取模块，将所述补充文本与所述场景的交易记录合并去重后，重复执行将文本转换成对应的字典向量、将字典向量转换为TF-IDF向量转换以及将所述场景的各文本对应的TF-IDF向量输入LDA模型得到场景的标签的步骤，直至本次得到的场景的标签与上一次得到的场景的标签相比满足预设要求，所述预设要求为二者相同或者相似度达到预设值，将本次得到的场景的标签用于汇总得到所述用户消费标签体系。

5.根据权利要求4所述的基于交易数据建立用户消费标签体系的装置，其特征在于，还包括：

6.根据权利要求4所述的基于交易数据建立用户消费标签体系的装置，其特征在于，所述字典向量转换模块包括：

分词单元，对所述场景的交易记录中的各文本进行分词；

编号单元，对各文本分词后的词语进行编号；

7.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至3任一项所述的基于交易数据建立用户消费标签体系的方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至3任一项所述的基于交易数据建立用户消费标签体系的方法的步骤。