CN110766460A - 一种用户画像的方法、装置、存储介质及计算机设备 - Google Patents

一种用户画像的方法、装置、存储介质及计算机设备 Download PDF

Info

Publication number
CN110766460A
CN110766460A CN201911002040.9A CN201911002040A CN110766460A CN 110766460 A CN110766460 A CN 110766460A CN 201911002040 A CN201911002040 A CN 201911002040A CN 110766460 A CN110766460 A CN 110766460A
Authority
CN
China
Prior art keywords
user
invoice information
information
invoice
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911002040.9A
Other languages
English (en)
Inventor
张民遐
谷鹏
刘城城
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hainan High Light Technology Co Ltd
Original Assignee
Hainan High Light Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hainan High Light Technology Co Ltd filed Critical Hainan High Light Technology Co Ltd
Priority to CN201911002040.9A priority Critical patent/CN110766460A/zh
Publication of CN110766460A publication Critical patent/CN110766460A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Processing Or Creating Images (AREA)

Abstract

本发明揭示了一种用户画像的方法、装置、存储介质及计算机设备,其中,用户画像的方法,所述方法具有对应的用户画像系统,用户画像系统具有对应的服务器,包括:获取第一用户开具的发票信息,并上传至服务器,其中,第一用户包含于所有使用用户画像系统进行画像的用户;从服务器下载第一发票信息,解析第一发票信息,生成第一发票信息对应的结构化数据,其中,第一发票信息为第一用户的发票信息;根据预设的标签体系,对解析后的第一发票信息进行打标,生成多个标签;根据多个标签,输出第一用户对应的用户画像。与现有技术相比,本发明基于电子发票,对用户进行标签化,提升服务用户的能力,做到对用户服务的个性化,做到用户的精准分类。

Description

一种用户画像的方法、装置、存储介质及计算机设备
技术领域
本发明涉及到人工智能领域,特别是涉及到一种用户画像的方法、装置、存储介质及计算机设备。
背景技术
随着电子信息行业的发展,发票电子化的必要性越来越高,对发票的信息提取和处理也越来越重要。以往的电子发票仅用于解决发票业务的问题,未能将发票信息最大化利用。为了后续给用户提供更好的服务,就需要精准的将用户进行分类。因此,如何最大化利用发票信息,建立用户画像,从而实现对用户的精准分类,显得十分必要。
发明内容
本发明的主要目的为提供一种用户画像的方法,旨在解决最大化利用发票信息,建立用户画像,从而实现对用户的精准分类的技术问题。
本发明提供一种用户画像的方法,所述方法具有对应的用户画像系统,用户画像系统具有对应的服务器,包括:
获取第一用户开具的发票信息,并上传至服务器,其中,第一用户包含于所有使用用户画像系统进行画像的用户;
从服务器下载第一发票信息,解析第一发票信息,生成第一发票信息对应的结构化数据,其中,第一发票信息为第一用户的发票信息;
根据预设的标签体系,对解析后的第一发票信息进行打标,生成多个标签;
根据多个标签,输出第一用户对应的用户画像。
优选的,用户画像系统具有对应的神经网络,根据预设的标签体系,对解析后的第一发票信息进行打标,生成多个标签的步骤,包括:
根据预设的标签体系,通过神经网络对解析后的第一发票信息进行打标,生成多个标签。
优选的,从服务器下载第一发票信息,解析第一发票信息,生成第一发票信息对应的结构化数据的步骤,包括:
获取第一发票信息并将第一发票信息转为预设数据格式;
从预设数据格式的第一发票信息中筛选和清洗第一发票信息,得到第一发票信息中的有效信息,其中,有效信息为用于建立用户画像的数据信息。
优选的,各标签具有对应的维度,根据多个标签,输出第一用户对应的用户画像的步骤,包括:
将各标签与第一用户各维度的信息一一关联;
通过第一用户各维度对应的标签,生成并输出第一用户对应的用户画像。
本发明还提供一种用户画像的装置,包括:
获取模块,用于获取第一用户开具的发票信息,并上传至服务器,其中,第一用户包含于所有使用用户画像系统进行画像的用户;
执行模块,用于从服务器下载第一发票信息,解析第一发票信息,生成第一发票信息对应的结构化数据,其中,第一发票信息为第一用户的发票信息;
打标模块,用于根据预设的标签体系,对解析后的第一发票信息进行打标,生成多个标签;
画像模块,用于根据多个标签,输出第一用户对应的用户画像。
优选的,打标模块包括:
打标子模块,用于根据预设的标签体系,通过神经网络对解析后的第一发票信息进行打标,生成多个标签。
优选的,执行模块包括:
获取子模块,用于获取第一发票信息并将第一发票信息转为预设数据格式;
解析子模块,用于从预设数据格式的第一发票信息中筛选和清洗第一发票信息,得到第一发票信息中的有效信息,其中,有效信息为用于建立用户画像的数据信息。
优选的,画像模块包括:
联系子模块,用于将各标签与第一用户各维度的信息一一关联;
输出子模块,用于通过第一用户各维度对应的标签,生成并输出第一用户对应的用户画像。
本发明还提供一种存储介质,其为计算机可读的存储介质,其上存储有计算机程序,计算机程序被执行时实现上述的用户画像的方法。
本发明还提供一种计算机设备,其包括处理器、存储器及存储于存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述的用户画像的方法。
本发明的有益效果在于:通过使用服务器,存储大量的历史发票数据,再通过对大量的历史发票数据的解析,获取到有效的信息,建立和用户的链接关系,对用户进行标签化,提升服务用户的能力,做到对用户服务的个性化,做到用户的精准分类。
附图说明
图1为本发明一种用户画像的方法的第一实施例的流程示意图;
图2为图1中用户画像系统与服务器配合工作的示意图;
图3为本发明一种用户画像的方法的第二实施例的流程示意图;
图4为图2中用户画像系统的深度卷积神经网络的结构示意图;
图5为本发明一种用户画像的方法的第三实施例的流程示意图;
图6为本发明一种用户画像的方法的第四实施例的流程示意图;
图7为本发明一种用户画像的方法的四实施例的标签体系示意图;
图8为本发明一种用户画像的装置的第一实施例的结构示意图;
图9为本申请提供的存储介质一实施例的结构框图;
图10为本申请提供的计算机设备一实施例的结构框图。
标号说明:
1、获取模块;2、执行模块;3、打标模块;4、画像模块;5、用户画像系统;6、服务器;7、深度卷积神经网络;8、输入层;9、卷积层;10、采样层;11、全连接层;12、softmax输出层;
100、存储介质;200、计算机程序;300、计算机设备;400、处理器。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1至图2,本发明提供一种用户画像的方法,所述方法具有对应的用户画像系统5,用户画像系统5具有对应的服务器6,包括:
S1:获取第一用户开具的发票信息,并上传至服务器6,其中,第一用户包含于所有使用所述用户画像系统进行画像的用户;
S2:从服务器6下载第一发票信息,解析第一发票信息,生成第一发票信息对应的结构化数据,其中,第一发票信息为第一用户的发票信息;
S3:根据预设的标签体系,对解析后的第一发票信息进行打标,生成多个标签;
S4:根据多个标签,输出第一用户对应的用户画像。
在本发明实施例中,用户画像系统5为软件系统,服务器6为分布式云存储服务器。用户画像系统5经用户授权后,通过应用程序从用户的邮箱或者通过商家的发票数据库中下载有关用户的电子发票数据,并将下载的电子发票数据上传至分布式云服务器中。具体的,在数据采集上使用了提高效率的多进程爬虫和zookeeper队列,在用户授权后,能够在快速采集电子发票数据,获取的大量历史数据,能够更好的提高用户画像的准确度;使用分布式云存储服务器,支持海量数据的操作,通过分布式存储的方式,上传获取的历史开票数据,其中,存储技术是基于hadoop(hadoop,海杜普)大数据集群的存储技术,使用了大数据中的应用技术,数据存储在HDFS(Hadoop Distributed File System,分布式文件系统)中,映射到hive表,能够保障数据的安全性,提升了生成用户画像的效率,也增强了系统的稳定性和可靠性,能够支持超大文件、具备高容错能力、高数据访问能力。用户画像系统5从分布式云服务器中下载电子发票数据,然后解析电子发票数据,生成电子发票数据对应的结构化数据。用户画像系统5根据预设的标签体系,对解析后的电子发票数据进行打标,生成多个标签,其中,所述标签体系为三级标签体系,包括一级标签,二级标签,三级标签,一级标签对用户进行初步分类,二级标签为一级标签的进一步细化标签,三级标签为二级标签的进一步细化标签,各级标签均包含静态标签和动态标签,静态标签如人口属性、(地域、性别等)商业属性(消费能力等),动态标签如消费时间、消费频率等。用户画像系统5根据多个标签,输出第一用户对应的用户画像,从而通过用户开具的电子发票信息实现对用户的精准分类。
参照图3和图4,用户画像系统5具有对应的神经网络,根据预设的标签体系,对解析后的第一发票信息进行打标,生成多个标签的步骤S3,包括:
S31:根据预设的标签体系,通过神经网络对解析后的第一发票信息进行打标,生成多个标签。
在本发明实施例中,用户画像系统5根据预设的标签体系,通过神经网络对解析后的电子发票数据进行标签化,从而生成多个标签。具体的,用户画像系统5具有对应的神经网络。神经网络需经过大量训练才能根据电子发票数据生成准确的标签。神经网络训练过程需提供大量训练数据,包括但不限于发票代码、发票号码、商品金额、税额、商品明细、销方信息、购方信息等。在本发明实施例中,神经网络为深度卷积神经网络7。用户画像系统5会对训练数据进行预处理,包括除去数据中非文本部分,对训练数据进行人工预打标签,发票数据的分词,发票数据的embedded处理等。此外,用户画像系统5还包括对模型的选择,模型超参的调节,模型参数的最终确定等功能。在本发明实施例中,用户画像系统5选择深度卷积神经网络7,作为最终的训练模型。深度卷积神经网络7一般采用卷积层9与采样层10交替设置,即一层卷积层9接一层采样层10,采样层10后接一层卷积...这样卷积层9提取出特征,再进行组合形成更抽象的特征,最后形成对图片对象的描述特征。深度卷积神经网络7的最大特点就是稀疏连接(局部感受)和权值共享。稀疏连接和权值共享可以减少所要训练的参数,减少计算复杂度。深度卷积神经网络7是一个多层的神经网络,每层由多个二维平面组成,而每个平面由多个独立神经元组成。深度卷积神经网络7在本质上是一种输入到输出的映射,它能够学习大量的输入与输出之间的映射关系,而不需要任何输入和输出之间的精确的数学表达式,只要用已知的模式对卷积网络加以训练,深度卷积神经网络7就具有输入输出对之间的映射能力。深度卷积神经网络7是一种多层的监督学习神经网络,隐含层的卷积层9和采样层10是实现卷积神经网络特征提取功能的核心模块。该网络模型通过采用梯度下降法最小化损失函数对网络中的权重参数逐层反向调节,通过频繁的迭代训练提高网络的精度。深度卷积神经网络7的低隐层是由卷积层9和最大采样层10交替组成,高层是全连接层11对应传统多层感知器的隐含层和逻辑回归分类器。第一个全连接层11的输入是由卷积层9和子采样层10进行特征提取得到的特征数据。最后一层输出层是一个分类器,可以采用逻辑回归,softmax回归甚至是支持向量机对输入发票数据进行分类。深度卷积神经网络7的结构包括:输入层8、卷积层9,采样层10,全连接层11和softmax输出层12。每一层有多个特征输入,每个特征输入通过一种卷积滤波器提取输入的一种特征,每个特征输入有多个神经元。卷积层9:使用卷积层9的原因是卷积运算的一个重要特点是,通过卷积运算,可以使原信号特征增强,并且降低噪音。采样层10:使用降采样的原因是,根据数据局部相关性的原理,对数据进行子采样可以减少计算量,同时保持数据旋转不变性。全连接层11:采用softmax全连接,得到的激活值即卷积神经网络提取到的发票数据的分类。通过上述设置可知,用户画像系统5通过训练后的神经网络,根据解析后的电子发票数据,生成多个准确的标签,能大大提高用户画像系统5的打标效率,从而提升用户画像系统5的对用户进行分类的效率。
参照图5,从服务器6下载第一发票信息,解析第一发票信息,生成第一发票信息对应的结构化数据的步骤S2,包括:
S21:获取第一发票信息;
S22:筛选和清洗第一发票信息,得到第一发票信息中的有效信息,其中,有效信息为用于建立用户画像的数据信息。
在本发明实施例中,用户画像系统5将第一发票信息转为PDF格式。用户画像系统5通过多进程和查找数据索引的方法,保障解析的准确率,获得电子发票的有效信息,其中,有效信息包括不限于:机器编号、发票代码、发票号码、开票日期、校验码、购方名称、纳税人识别号、购方地址电话、开户行账号及名称、项目名称、金额、税率、税额、销方各类信息;并对获取的上述数据进行清洗和筛选,获取有效信息。对电子发票的PDF文件解析上,根据索引提取数据,提取数据的准确性达到100%,保障了用户画像的准确性。在本发明其他实施例中,用户画像系统5将有效信息保存至所述的发票数据采集存储模块中的分布式云存储服务器单元的hbase,具有高并发读写操作的支持,能够做到自动故障转移,保障了数据解析实时更新的可靠性。
参照图6和图7,各标签具有对应的维度,根据多个标签,输出第一用户对应的用户画像的步骤S4,包括:
S41:将各标签与第一用户各维度的信息一一关联;
S42:通过第一用户各所述维度对应的标签,生成并输出第一用户对应的用户画像。
在本发明实施例中,用户画像系统5将各标签与第一用户各维度的信息一一关联,其中,维度包括但不限于人口属性、商业属性、动态标签。通过人口属性、商业属性、动态标签等各维度的标签逐一建立和用户之间的联系,输出用户画像。具体的,在本发明实施例中,如图7所示。一级标签包括基本属性和兴趣爱好;二级标签包括性别、职业、体育、教育和爱好;三级标签包括男、程序员、篮球、英语学习和海淘,其中,性别为静态标签,职业、体育、教育和爱好均为动态标签。在本发明实施例中,根据一级标签、二级标签和三级标签三个维度建立和用户之间的联系,输出用户画像,用户画像为一个热爱篮球、海淘以及正在学习英语的男性程序员。使得商家能根据用户画像,对用户提供更具有针对性的服务。通过上述设置,通过多维度的标签,使得用户画像更精准。
参照图8,本发明提供一种用户画像的装置,包括:
获取模块1,用于获取第一用户开具的发票信息,并上传至服务器6,其中,第一用户包含于所有使用用户画像系统5进行画像的用户;
执行模块2,用于从服务器6下载第一发票信息,解析第一发票信息,生成第一发票信息对应的结构化数据,其中,第一发票信息为第一用户的发票信息;
打标模块3,用于根据预设的标签体系,对解析后的第一发票信息进行打标,生成多个标签;
画像模块4,用于根据多个标签,输出第一用户对应的用户画像。
在本发明实施例中,用户画像系统5为软件系统,服务器6为分布式云存储服务器。用户画像系统5经用户授权后,通过应用程序从用户的邮箱或者通过商家的发票数据库中下载有关用户的电子发票数据,并将下载的电子发票数据上传至分布式云服务器中。具体的,在数据采集上使用了提高效率的多进程爬虫和zookeeper队列,在用户授权后,能够在快速采集电子发票数据,获取的大量历史数据,能够更好的提高用户画像的准确度;使用分布式云存储服务器,支持海量数据的操作,通过分布式存储的方式,上传获取的历史开票数据,其中,存储技术是基于hadoop(hadoop,海杜普)大数据集群的存储技术,使用了大数据中的应用技术,数据存储在HDFS(Hadoop Distributed File System,分布式文件系统)中,映射到hive表,能够保障数据的安全性,提升了生成用户画像的效率,也增强了系统的稳定性和可靠性,能够支持超大文件、具备高容错能力、高数据访问能力。用户画像系统5从分布式云服务器中下载电子发票数据,然后解析电子发票数据,生成电子发票数据对应的结构化数据。用户画像系统5根据预设的标签体系,对解析后的电子发票数据进行打标,生成多个标签,其中,所述标签体系为三级标签体系,包括一级标签,二级标签,三级标签,一级标签对用户进行初步分类,二级标签为一级标签的进一步细化标签,三级标签为二级标签的进一步细化标签,各级标签均包含静态标签和动态标签,静态标签如人口属性、(地域、性别等)商业属性(消费能力等),动态标签如消费时间、消费频率等。用户画像系统5根据多个标签,输出第一用户对应的用户画像,从而通过用户开具的电子发票信息实现对用户的精准分类。
进一步地,打标模块3包括:
打标子模块,用于根据预设的标签体系,通过神经网络对解析后的第一发票信息进行打标,生成多个标签。
在本发明实施例中,用户画像系统5根据预设的标签体系,通过神经网络对解析后的电子发票数据进行标签化,从而生成多个标签。具体的,用户画像系统5具有对应的神经网络。神经网络需经过大量训练才能根据电子发票数据生成准确的标签。神经网络训练过程需提供大量训练数据,包括但不限于发票代码、发票号码、商品金额、税额、商品明细、销方信息、购方信息等。在本发明实施例中,神经网络为深度卷积神经网络7。用户画像系统5会对训练数据进行预处理,包括除去数据中非文本部分,对训练数据进行人工预打标签,发票数据的分词,发票数据的embedded处理等。此外,用户画像系统5还包括对模型的选择,模型超参的调节,模型参数的最终确定等功能。在本发明实施例中,用户画像系统5选择深度卷积神经网络7,作为最终的训练模型。深度卷积神经网络7一般采用卷积层9与采样层10交替设置,即一层卷积层9接一层采样层10,采样层10后接一层卷积...这样卷积层9提取出特征,再进行组合形成更抽象的特征,最后形成对图片对象的描述特征。深度卷积神经网络7的最大特点就是稀疏连接(局部感受)和权值共享。稀疏连接和权值共享可以减少所要训练的参数,减少计算复杂度。深度卷积神经网络7是一个多层的神经网络,每层由多个二维平面组成,而每个平面由多个独立神经元组成。深度卷积神经网络7在本质上是一种输入到输出的映射,它能够学习大量的输入与输出之间的映射关系,而不需要任何输入和输出之间的精确的数学表达式,只要用已知的模式对卷积网络加以训练,深度卷积神经网络7就具有输入输出对之间的映射能力。深度卷积神经网络7是一种多层的监督学习神经网络,隐含层的卷积层9和采样层10是实现卷积神经网络特征提取功能的核心模块。该网络模型通过采用梯度下降法最小化损失函数对网络中的权重参数逐层反向调节,通过频繁的迭代训练提高网络的精度。深度卷积神经网络7的低隐层是由卷积层9和最大采样层10交替组成,高层是全连接层11对应传统多层感知器的隐含层和逻辑回归分类器。第一个全连接层11的输入是由卷积层9和子采样层10进行特征提取得到的特征数据。最后一层输出层是一个分类器,可以采用逻辑回归,softmax回归甚至是支持向量机对输入发票数据进行分类。深度卷积神经网络7的结构包括:输入层8、卷积层9,采样层10,全连接层11和softmax输出层12。每一层有多个特征输入,每个特征输入通过一种卷积滤波器提取输入的一种特征,每个特征输入有多个神经元。卷积层9:使用卷积层9的原因是卷积运算的一个重要特点是,通过卷积运算,可以使原信号特征增强,并且降低噪音。采样层10:使用降采样的原因是,根据数据局部相关性的原理,对数据进行子采样可以减少计算量,同时保持数据旋转不变性。全连接层11:采用softmax全连接,得到的激活值即卷积神经网络提取到的发票数据的分类。通过上述设置可知,用户画像系统5通过训练后的神经网络,根据解析后的电子发票数据,生成多个准确的标签,能大大提高用户画像系统5的打标效率,从而提升用户画像系统5的对用户进行分类的效率。
进一步地,执行模块2包括:
获取子模块,用于获取第一发票信息;
解析子模块,用于筛选和清洗第一发票信息,得到第一发票信息中的有效信息,其中,有效信息为用于建立用户画像的数据信息。
在本发明实施例中,用户画像系统5将第一发票信息转为PDF格式。用户画像系统5通过多进程和查找数据索引的方法,保障解析的准确率,获得电子发票的有效信息,其中,有效信息包括不限于:机器编号、发票代码、发票号码、开票日期、校验码、购方名称、纳税人识别号、购方地址电话、开户行账号及名称、项目名称、金额、税率、税额、销方各类信息;并对获取的上述数据进行清洗和筛选,获取有效信息。对电子发票的PDF文件解析上,根据索引提取数据,提取数据的准确性达到100%,保障了用户画像的准确性。在本发明其他实施例中,用户画像系统5将有效信息保存至所述的发票数据采集存储模块中的分布式云存储服务器单元的hbase,具有高并发读写操作的支持,能够做到自动故障转移,保障了数据解析实时更新的可靠性。
进一步地,画像模块4包括:
联系子模块,用于将各标签与第一用户各维度的信息一一关联;
输出子模块,用于通过第一用户各所述维度对应的标签,生成并输出第一用户对应的用户画像。
在本发明实施例中,用户画像系统5将各标签与第一用户各维度的信息一一关联,其中,维度包括但不限于人口属性、商业属性、动态标签。通过人口属性、商业属性、动态标签等各维度的标签逐一建立和用户之间的联系,输出用户画像。具体的,在本发明实施例中,如图7所示。一级标签包括基本属性和兴趣爱好;二级标签包括性别、职业、体育、教育和爱好;三级标签包括男、程序员、篮球、英语学习和海淘,其中,性别为静态标签,职业、体育、教育和爱好均为动态标签。在本发明实施例中,根据一级标签、二级标签和三级标签三个维度建立和用户之间的联系,输出用户画像,用户画像为一个热爱篮球、海淘以及正在学习英语的男性程序员。使得商家能根据用户画像,对用户提供更具有针对性的服务。通过上述设置,通过多维度的标签,使得用户画像更精准
参考图9,本申请还提供了一种存储介质100,存储介质100中存储有计算机程序200,当其在计算机上运行时,使得计算机执行以上实施例所描述的用户画像的方法。
参考图10,本申请还提供了一种包含指令的计算机设备300,当其在计算机设备300上运行时,使得计算机设备300通过其内部设置的处理器400执行以上实施例所描述的用户画像的方法。
本领域技术人员可以理解,本发明所述的用户画像的方法和上述所涉及用于执行本申请中所述方法中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序或应用程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随机存储器)、EPROM(Erasable Programmable Read-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种用户画像的方法,其特征在于,所述方法具有对应的用户画像系统,所述用户画像系统具有对应的服务器,包括:
获取第一用户开具的发票信息,并上传至所述服务器,其中,所述第一用户包含于所有使用所述用户画像系统进行画像的用户;
从所述服务器下载所述第一发票信息,解析所述第一发票信息,生成所述第一发票信息对应的结构化数据,其中,所述第一发票信息为所述第一用户的发票信息;
根据预设的标签体系,对解析后的所述第一发票信息进行打标,生成多个标签;
根据多个所述标签,输出所述第一用户对应的用户画像。
2.根据权利要求1所述的用户画像的方法,其特征在于,所述用户画像系统具有对应的神经网络,所述根据预设的标签体系,对解析后的所述第一发票信息进行打标,生成多个标签的步骤,包括:
根据预设的标签体系,通过所述神经网络对解析后的所述第一发票信息进行打标,生成多个标签。
3.根据权利要求1所述的用户画像的方法,其特征在于,所述从所述服务器下载所述第一发票信息,解析所述第一发票信息,生成所述第一发票信息对应的结构化数据的步骤,包括:
获取所述第一发票信息并将所述第一发票信息转为预设数据格式;
从所述预设数据格式的所述第一发票信息中筛选和清洗所述第一发票信息,得到所述第一发票信息中的有效信息,其中,所述有效信息为用于建立用户画像的数据信息。
4.根据权利要求1所述的用户画像的方法,其特征在于,各所述标签具有对应的维度,所述根据多个所述标签,输出所述第一用户对应的用户画像的步骤,包括:
将各所述标签与所述第一用户各维度的信息一一关联;
通过所述第一用户各所述维度对应的所述标签,生成并输出所述第一用户对应的用户画像。
5.一种用户画像的装置,其特征在于,包括:
获取模块,用于获取第一用户开具的发票信息,并上传至所述服务器,其中,所述第一用户包含于所有使用所述用户画像系统进行画像的用户;
执行模块,用于从所述服务器下载所述第一发票信息,解析所述第一发票信息,生成所述第一发票信息对应的结构化数据,其中,所述第一发票信息为所述第一用户的发票信息;
打标模块,用于根据预设的标签体系,对解析后的所述第一发票信息进行打标,生成多个标签;
画像模块,用于根据多个所述标签,输出所述第一用户对应的用户画像。
6.根据权利要求5所述的用户画像的装置,其特征在于,所述打标模块包括:
打标子模块,用于根据预设的标签体系,通过所述神经网络对解析后的所述第一发票信息进行打标,生成多个标签。
7.根据权利要求5所述的用户画像的装置,其特征在于,所述执行模块包括:
获取子模块,用于获取所述第一发票信息并将所述第一发票信息转为预设数据格式;
解析子模块,用于从所述预设数据格式的所述第一发票信息中筛选和清洗所述第一发票信息,得到所述第一发票信息中的有效信息,其中,所述有效信息为用于建立用户画像的数据信息。
8.根据权利要求5所述的用户画像的装置,其特征在于,所述画像模块包括:
联系子模块,用于将各所述标签与所述第一用户各维度的信息一一关联;
输出子模块,用于通过所述第一用户各所述维度对应的所述标签,生成并输出所述第一用户对应的用户画像。
9.一种存储介质,其特征在于,其为计算机可读的存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如权利要求1~4任一项所述的用户画像的方法。
10.一种计算机设备,其特征在于,其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~4任一项所述的用户画像的方法。
CN201911002040.9A 2019-10-21 2019-10-21 一种用户画像的方法、装置、存储介质及计算机设备 Pending CN110766460A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911002040.9A CN110766460A (zh) 2019-10-21 2019-10-21 一种用户画像的方法、装置、存储介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911002040.9A CN110766460A (zh) 2019-10-21 2019-10-21 一种用户画像的方法、装置、存储介质及计算机设备

Publications (1)

Publication Number Publication Date
CN110766460A true CN110766460A (zh) 2020-02-07

Family

ID=69332807

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911002040.9A Pending CN110766460A (zh) 2019-10-21 2019-10-21 一种用户画像的方法、装置、存储介质及计算机设备

Country Status (1)

Country Link
CN (1) CN110766460A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111552734A (zh) * 2020-03-30 2020-08-18 平安医疗健康管理股份有限公司 用户画像的生成方法及装置、计算机设备、存储介质
CN112417251A (zh) * 2020-11-30 2021-02-26 华能大理风力发电有限公司 一种基于风电竞价的交易信息检索方法及装置
CN112613902A (zh) * 2020-12-15 2021-04-06 航天信息股份有限公司 一种建立用户画像的方法及系统
CN114077694A (zh) * 2021-10-26 2022-02-22 盐城金堤科技有限公司 确定对象标签的方法、装置、存储介质和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460100A (zh) * 2018-02-02 2018-08-28 方欣科技有限公司 一种用户画像构建方法及装置
CN109118288A (zh) * 2018-08-22 2019-01-01 中国平安人寿保险股份有限公司 基于大数据分析的目标用户获取方法及装置
CN109615429A (zh) * 2018-12-11 2019-04-12 大象慧云信息技术有限公司 一种基于发票数据的精准广告投放系统及方法
CN109711874A (zh) * 2018-12-17 2019-05-03 平安科技(深圳)有限公司 用户画像生成方法、装置、计算机设备和存储介质
CN110309339A (zh) * 2018-07-26 2019-10-08 腾讯科技(北京)有限公司 图片标签生成方法及装置、终端及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108460100A (zh) * 2018-02-02 2018-08-28 方欣科技有限公司 一种用户画像构建方法及装置
CN110309339A (zh) * 2018-07-26 2019-10-08 腾讯科技(北京)有限公司 图片标签生成方法及装置、终端及存储介质
CN109118288A (zh) * 2018-08-22 2019-01-01 中国平安人寿保险股份有限公司 基于大数据分析的目标用户获取方法及装置
CN109615429A (zh) * 2018-12-11 2019-04-12 大象慧云信息技术有限公司 一种基于发票数据的精准广告投放系统及方法
CN109711874A (zh) * 2018-12-17 2019-05-03 平安科技(深圳)有限公司 用户画像生成方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FENGBINGCHUN: ""卷积神经网络(CNN)基础介绍"", 《HTTPS://BLOG.CSDN.NET/FENGBINGCHUN/ARTICLE/DETAILS/50529500》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111552734A (zh) * 2020-03-30 2020-08-18 平安医疗健康管理股份有限公司 用户画像的生成方法及装置、计算机设备、存储介质
CN112417251A (zh) * 2020-11-30 2021-02-26 华能大理风力发电有限公司 一种基于风电竞价的交易信息检索方法及装置
CN112613902A (zh) * 2020-12-15 2021-04-06 航天信息股份有限公司 一种建立用户画像的方法及系统
CN112613902B (zh) * 2020-12-15 2024-06-07 航天信息股份有限公司 一种建立用户画像的方法及系统
CN114077694A (zh) * 2021-10-26 2022-02-22 盐城金堤科技有限公司 确定对象标签的方法、装置、存储介质和电子设备
CN114077694B (zh) * 2021-10-26 2024-09-17 盐城天眼察微科技有限公司 确定对象标签的方法、装置、存储介质和电子设备

Similar Documents

Publication Publication Date Title
Shanmugamani Deep Learning for Computer Vision: Expert techniques to train advanced neural networks using TensorFlow and Keras
CN109658478B (zh) 一种提供企业画像的方法及系统
CN108229478B (zh) 图像语义分割及训练方法和装置、电子设备、存储介质和程序
Barga et al. Predictive analytics with Microsoft Azure machine learning
CN108229341B (zh) 分类方法和装置、电子设备、计算机存储介质
CN107690657B (zh) 根据影像发现商户
CN110766460A (zh) 一种用户画像的方法、装置、存储介质及计算机设备
US9280525B2 (en) Method and apparatus for forming a structured document from unstructured information
US20230401828A1 (en) Method for training image recognition model, electronic device and storage medium
CN113011186B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN113901320A (zh) 场景服务推荐方法、装置、设备及存储介质
CN106611015B (zh) 标签的处理方法及装置
US20220180624A1 (en) Method and device for automatic identification of labels of an image
CN113705733A (zh) 医疗票据图像处理方法及装置、电子设备、存储介质
CN113611405A (zh) 一种体检项目推荐方法、装置、设备及介质
CN110781925B (zh) 软件页面的分类方法、装置、电子设备及存储介质
Joseph et al. Fruit classification using deep learning
CN111522979B (zh) 图片排序推荐方法、装置、电子设备、存储介质
Varghese et al. INFOPLANT: Plant recognition using convolutional neural networks
CN115564469A (zh) 广告创意选取和模型训练方法、装置、设备及存储介质
CN111582932A (zh) 场景间信息推送方法、装置、计算机设备及存储介质
Thakkar Beginning machine learning in ios: CoreML framework
CN114821590A (zh) 文档信息提取方法、装置、设备及介质
CN115423040A (zh) 互动营销平台的用户画像识别方法及ai系统
CN113837216B (zh) 数据分类方法、训练方法、装置、介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 27D, building 2, building 1, Dachong Business Center (phase II), 9678 Shennan Avenue, Dachong community, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen Gaodeng Computer Technology Co.,Ltd.

Address before: 571924 Hainan Ecological Software Park, Chengmai County old town high tech industry demonstration zone

Applicant before: HAINAN GAODENG TECHNOLOGY Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200207