CN110020196A - 一种基于不同数据源的用户分析方法和装置及计算设备 - Google Patents

一种基于不同数据源的用户分析方法和装置及计算设备 Download PDF

Info

Publication number
CN110020196A
CN110020196A CN201810958242.XA CN201810958242A CN110020196A CN 110020196 A CN110020196 A CN 110020196A CN 201810958242 A CN201810958242 A CN 201810958242A CN 110020196 A CN110020196 A CN 110020196A
Authority
CN
China
Prior art keywords
user
data
historical data
machine learning
incidence relation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810958242.XA
Other languages
English (en)
Other versions
CN110020196B (zh
Inventor
龙凯
赵相龙
刘屹洲
高瑞鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Moyi Fish Technology Co ltd
Original Assignee
Five Dimensional Gravity (shanghai) Marketing Data Services Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Five Dimensional Gravity (shanghai) Marketing Data Services Ltd filed Critical Five Dimensional Gravity (shanghai) Marketing Data Services Ltd
Priority to CN201810958242.XA priority Critical patent/CN110020196B/zh
Publication of CN110020196A publication Critical patent/CN110020196A/zh
Application granted granted Critical
Publication of CN110020196B publication Critical patent/CN110020196B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/18Delegation of network management function, e.g. customer network management [CNM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种基于不同数据源的用户分析方法和装置及计算设备,该方法包括:将第一样本集合和第二样本集合输入第一机器学习模型进行机器学习处理;其中,所述第一样本集合来源于第一数据源,所述第二样本集合来源于第二数据源;所述第一机器学习模型经过所述机器学习处理,得到第二机器学习模型;将用户数据输入所述第二机器学习模型;所述第二机器学习模型根据所述用户数据添加用户标签;所述用户标签用于表示用户的属性。本发明提供的基于不同数据源的用户分析方法和装置及计算设备,实现了简单、高效的跨数据源人群放大,为基于少量人群特征的跨数据源海量人群圈选应用提供了充分支撑。

Description

一种基于不同数据源的用户分析方法和装置及计算设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于不同数据源的用户分析方法和装置及计算设备。
背景技术
大数据(big data,mega data),或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。基于大数据进行分析处理,可以提供用户画像服务,以分析用户属性和需求等。
通常情况下,两个或两个以上数据源之间具有完全不相关的业务场景,表现为不同层次、不同维度的数据,如线下交易数据源、线上浏览数据源、客户关系管理数据源(CRM,customer relationship management)等各类型数据源,由于记录主体、类型、特征等不同,数据源之间相互隔离或独立。
发明内容
本发明目的在于提供一种基于不同数据源的用户分析方法和装置及计算设备,以解决利用相互独立的数据源进行用户分析的问题。
本发明的基于不同数据源的用户分析方法,包括:
将第一样本集合和第二样本集合输入第一机器学习模型进行机器学习处理;其中,所述第一样本集合来源于第一数据源,所述第二样本集合来源于第二数据源;
所述第一机器学习模型经过所述机器学习处理,得到第二机器学习模型;
将用户数据输入所述第二机器学习模型;
所述第二机器学习模型根据所述用户数据添加用户标签;所述用户标签用于表示用户的属性。
进一步,本发明所述的用户分析方法,
所述第一样本集合包括:第一样本标识以及与所述第一样本标识相对应的第一历史数据;
所述第二样本集合包括:第二样本标识以及与所述第二样本标识相对应的第二历史数据和用户标签;
所述第一样本标识与所述第二样本标识具有关联关系。
进一步,本发明所述的用户分析方法,所述机器学习处理具体包括:
基于所述第一历史数据生成第一用户特征;
基于所述第二历史数据生成第二用户特征;
基于所述第二历史数据与所述第二样本标识的关联关系、所述第二样本标识与所述第一样本标识的关联关系、所述第一样本标识与所述第一历史数据的关联关系,建立所述第二历史数据与所述第一历史数据的关联关系;
基于所述第二历史数据与所述第一历史数据的关联关系,建立所述第一用户特征与所述第二用户特征的关联关系;
基于所述用户标签与所述第二历史数据的关联关系,建立所述用户标签与所述第二用户特征的关联关系;
基于所述第一用户特征与所述第二用户特征的关联关系,建立所述用户标签与所述第一用户特征的关联关系。
进一步,本发明所述的用户分析方法,
所述用户数据来源于所述第一数据源;
所述用户数据包括:用户标识以及与所述用户标识相对应的第三历史数据;
所述第三历史数据与所述第一历史数据类型相同。
进一步,本发明所述的用户分析方法,所述第二机器学习模型根据所述用户数据添加用户标签的步骤具体包括:
所述第二机器学习模型比较所述第三历史数据与所述第一用户特征;
当所述第三历史数据符合所述第一用户特征时,添加与所述第一用户特征具有关联关系的所述用户标签;
建立所述用户标签与所述用户标识的关联关系。
进一步,本发明所述的用户分析方法,
所述第一样本标识包括:终端设备号、应用程序用户账号或电话号码信息;
所述第一历史数据包括:与所述终端设备号、所述应用程序用户账号或所述电话号码信息相对应的上网行为历史数据;
所述第一用户特征包括:上网行为特征;
所述第二样本标识包括:金融账户信息或支付软件账号信息;
所述第二历史数据包括:与所述金融账户信息或所述支付软件账号信息相对应的交易历史数据;
所述第二用户特征包括:交易行为特征。
进一步,本发明所述的用户分析方法,
所述用户标识包括:终端设备号、应用程序用户账号或电话号码信息;
所述第三历史数据包括:与所述终端设备号、所述应用程序用户账号或所述电话号码信息相对应的上网行为历史数据。
本发明提供的基于不同数据源的用户分析装置,包括:
第一输入模块,用于将第一样本集合和第二样本集合输入第一机器学习模型进行机器学习处理;其中,所述第一样本集合来源于第一数据源,所述第二样本集合来源于第二数据源;
机器学习模块,用于所述机器学习处理,得到第二机器学习模型;
第二输入模块,用于将用户数据输入所述第二机器学习模型;
分析模块,用于使所述第二机器学习模型根据所述用户数据添加用户标签;所述用户标签用于表示用户的属性。
进一步,本发明所述的用户分析装置,
所述第一样本集合包括:第一样本标识以及与所述第一样本标识相对应的第一历史数据;
所述第二样本集合包括:第二样本标识以及与所述第二样本标识相对应的第二历史数据和用户标签;
所述第一样本标识与所述第二样本标识具有关联关系。
进一步,本发明所述的用户分析装置,所述机器学习模块具体用于:
基于所述第一历史数据生成第一用户特征;
基于所述第二历史数据生成第二用户特征;
基于所述第二历史数据与所述第二样本标识的关联关系、所述第二样本标识与所述第一样本标识的关联关系、所述第一样本标识与所述第一历史数据的关联关系,建立所述第二历史数据与所述第一历史数据的关联关系;
基于所述第二历史数据与所述第一历史数据的关联关系,建立所述第一用户特征与所述第二用户特征的关联关系;
基于所述用户标签与所述第二历史数据的关联关系,建立所述用户标签与所述第二用户特征的关联关系;
基于所述第一用户特征与所述第二用户特征的关联关系,建立所述用户标签与所述第一用户特征的关联关系。
进一步,本发明所述的用户分析装置,
所述用户数据来源于所述第一数据源;
所述用户数据包括:用户标识以及与所述用户标识相对应的第三历史数据;
所述第三历史数据与所述第一历史数据类型相同。
进一步,本发明所述的用户分析装置,所述分析模块具体用于:
使所述第二机器学习模型比较所述第三历史数据与所述第一用户特征;
当所述第三历史数据符合所述第一用户特征时,添加与所述第一用户特征具有关联关系的所述用户标签;
建立所述用户标签与所述用户标识的关联关系。
进一步,本发明所述的用户分析装置,
所述第一样本标识包括:终端设备号、应用程序用户账号或电话号码信息;
所述第一历史数据包括:与所述终端设备号、所述应用程序用户账号或所述电话号码信息相对应的上网行为历史数据;
所述第一用户特征包括:上网行为特征;
所述第二样本标识包括:金融账户信息或支付软件账号信息;
所述第二历史数据包括:与所述金融账户信息或所述支付软件账号信息相对应的交易历史数据;
所述第二用户特征包括:交易行为特征。
进一步,本发明所述的用户分析装置,
所述用户标识包括:终端设备号、应用程序用户账号或电话号码信息;
所述第三历史数据包括:与所述终端设备号、所述应用程序用户账号或所述电话号码信息相对应的上网行为历史数据。
本发明还提供一种存储设备,所述存储设备存储有指令,所述指令根据本发明所述的用户分析方法进行执行。
本发明还提供一种计算设备,所述计算设备存储有指令,所述指令根据本发明所述的用户分析方法进行执行。
本发明提供的基于不同数据源的用户分析方法和装置及计算设备,将来源于不同数据源的少量样本数据输入机器学习模型中,供第一机器学习模型进行学习训练,得到模型结果,即第二机器学习模型。模型结果通过学习,可以自动寻找到样本数据之间的逻辑联系。之后,将待分析的海量用户数据输入至模型结果,即第二机器学习模型。第二机器学习模型根据已经训练得到的逻辑推理能力,对海量用户数据进行分析,对符合训练逻辑的用户添加相应标签,以表明该用户属性,从而完成对用户的分析。本发明提供的基于不同数据源的用户分析方法和装置及计算设备,由于机器学习时是针对两个数据源进行,因此,机器学习训练得到的逻辑将包含第一数据源与第二数据源之间的关联关系,对于来自于某个数据源的海量用户数据,即使该数据源没有与其他数据源进行数据打通,但是基于第二机器学习模型中已经训练得到的两个数据源之间的关联关系,同样可以利用另一数据源的逻辑对用户数据进行分析,在提高用户分析精度的同时,避免了将待检测海量用户数据与其他数据打通的计算成本,更进一步,通过机器学习对少量种子用户的标签化识别,并在海量数据中基于机器学习结果进行用户分析,实现了简单、高效的跨数据源人群放大,为基于少量人群特征的跨数据源海量人群圈选应用提供了充分支撑。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明实施例一的基于不同数据源的用户分析方法的流程示意图;
图2为本发明实施例二的基于不同数据源的用户分析方法的流程示意图;
图3为本发明实施例三的基于不同数据源的用户分析装置的结构示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
实施例一
图1为本发明实施例一的基于不同数据源的用户分析方法的流程示意图,如图1所示,本发明实施例一的基于不同数据源的用户分析方法包括:
步骤S101,将第一样本集合和第二样本集合输入第一机器学习模型进行机器学习处理。
其中,第一样本集合来源于第一数据源。第一样本集合包括:第一样本标识以及与第一样本标识相对应的第一历史数据。例如,第一数据源为服务器采集的用户上网行为数据源。第一样本标识可以包括:终端设备号、应用程序用户账号或电话号码信息。第一历史数据可以包括:与终端设备号相对应的上网行为历史数据、与应用程序用户账号相对应的上网行为历史数据、与电话号码信息相对应的上网行为历史数据。例如,上网行为历史数据可以包括:用户浏览汽车论坛页面、电商平台产品页面等网页浏览数据,用户收藏页面的数据,用户对某些页面进行关注的数据等。
其中,第二样本集合来源于第二数据源。第二样本集合包括:第二样本标识以及与第二样本标识相对应的第二历史数据。例如,第二数据源为银行等金融机构部署的服务器采集的用户交易行为数据源。第二样本标识可以包括以下任意一项:金融账户信息或支付软件账号信息。第二历史数据可以包括:与金融账户信息相对应的交易历史数据、与支付软件账号信息相对应的交易历史数据。交易历史数据可以包括:用户支付、转账、贷款等行为的交易记录数据。
其中,第二样本集合还包括与第二样本标识相对应的用户标签。例如,某些用户进行了汽车交易消费,可以为其添加与该用户的标识相对应的“具有汽车消费兴趣”的用户标签。
其中,第一样本标识与第二样本标识具有关联关系。可以根据第一数据源与第二数据源之间的业务逻辑关系或者时空映射关系,进行数据打通,在第一样本标识与第二样本标识之间建立关联关系。
例如,利用时空映射关系进行打通:从第一数据源获取第一数据列表并且从第二数据源获取第二数据列表;其中,第一数据列表的每组数据包括:第一样本标识以及与所述第一样本标识相对应的第一地理位置数据和第一时间数据;第二数据列表的每组数据包括:第二样本标识以及与所述第二样本标识相对应的第二地理位置数据和第二时间数据;根据空间筛选条件和时间筛选条件对所述第一数据列表和所述第二数据列表进行筛选处理;其中,所述空间筛选条件为:所述第一地理位置数据和所述第二地理位置数据在预设地理范围之内;所述时间筛选条件为:所述第一时间数据和所述第二时间数据在第一预设时间范围之内;根据筛选处理后的所述第一数据列表和所述第二数据列表,构建第三数据列表,进行去重处理,建立第一样本标识与第二样本标识之间一一对应的关联关系。
或者,利用业务逻辑关系进行打通:从第一数据源获取第一数据列表并且从第二数据源获取第二数据列表;其中,所述第一数据列表的每组数据包括:第一样本标识以及与所述第一样本标识相对应的第一业务数据和第一时间数据;所述第二数据列表的每组数据包括:第二样本标识以及与所述第二样本标识相对应的第二业务数据和第二时间数据;当所述第一业务数据和所述第二业务数据相等并且所述第一时间数据和所述第二时间数据在预设时间范围之内时,将所述第一样本标识与所述第二样本标识进行关联处理。
步骤S102,第一机器学习模型经过机器学习处理,得到第二机器学习模型。
其中,第一机器学习模型经过机器学习处理,可根据第一历史数据提取出第一用户特征并且根据第二历史数据提取出第二用户特征。其中,第一用户特征包括:上网行为特征。第二用户特征包括:交易行为特征。
例如,某用户经常登录汽车论坛页面,则第一用户特征为:用户登录汽车论坛页面的浏览行为。根据用户浏览汽车论坛页面在浏览其他页面中的比重或者用户浏览汽车论坛页面的次数、以及汽车论坛标签等历史数据,可以通过第一机器学习模型学习得到用户浏览汽车论坛的行为特征。
例如,某用户最近的大额消费为汽车,则第二用户特征为:用户购买汽车的消费行为。根据用户的消费金额、对方转账账号的名称、消费时间等历史数据,可以通过第一机器学习模型学习得到用户购买汽车的消费行为特征。
步骤S103,将用户数据输入第二机器学习模型。
其中,用户数据来源于第一数据源。用户数据包括:用户标识以及与用户标识相对应的第三历史数据。第三历史数据与第一历史数据类型相同。进行了数据打通的第一样本集合和第二样本集合数量较少,而第一数据源除了第一样本集合之外,还包括海量相同类型的未打通的数据,可以将未打通的用户数据输入经过机器学习处理而得到的第二机器学习模型进行识别计算,第二机器学习模型即为样本训练的模型结果。为保持与第一样本集合中的数据类型相一致,未打通的用户数据的用户标识也包括:终端设备号、应用程序用户账号或电话号码信息。对应的第三历史数据也包括:与终端设备号、应用程序用户账号或电话号码信息相对应的上网行为历史数据。
步骤S104,第二机器学习模型根据用户数据添加用户标签;用户标签用于表示用户的属性。
其中,第二机器模型经过训练,已经提取出了第一用户特征和第二用户特征。第一用户特征包括:上网行为特征。例如,根据某用户的第三历史数据与上网行为特征比较,第二机器模型发现该用户的第三历史数据符合某上网行为特征,则为其添加与该上网行为特征相关联的并且与交易行为特征对应的用户标签,该用户标签表明该用户的交易特征属性。
本发明实施例一的基于不同数据源的用户分析方法的具体工作原理为:首先从第一数据源选取少量的第一样本集合,从第二数据源选取少量的第二样本集合。第一数据源为网络行为采集数据源,第二数据源为交易数据源。第一样本集合与第二样本集合进行数据打通而具有关联关系。将第一样本集合和第二样本集合输入至第一机器学习模型进行学习训练,从第一样本集合中提取出若干上网行为特征并从第二样本集合中提取出若干交易行为特征。由于第一样本集合与第二样本集合具有关联关系,因此,上网行为特征与交易行为特征也具有关联关系。由于第二样本集合预先设有用户标签,因此交易行为特征具有与其对应的用户标签。由此得到模型结果,即第二机器学习模型。将第一数据源的海量的用户数据输入第二机器学习模型,第二机器学习模型发现用户数据符合某上网行为特征时,为其添加与该上网行为特征相关联的并且表示交易行为特征的用户标签,以表明该用户的某上网行为符合某交易特征的属性。
本发明实施例一的基于不同数据源的用户分析方法,通过机器学习对少量种子用户的标签化识别,并在海量数据中基于机器学习结果进行用户分析,实现了简单、高效的跨数据源人群放大,为基于少量人群特征的跨数据源海量人群圈选应用提供了充分支撑。
实施例二
图2为本发明实施例二的基于不同数据源的用户分析方法的流程示意图,如图2所示,本发明实施例二的基于不同数据源的用户分析方法包括:
步骤S201,将第一样本集合和第二样本集合输入第一机器学习模型进行机器学习处理。
其中,第一样本集合来源于第一数据源。第一样本集合包括:第一样本标识以及与第一样本标识相对应的第一历史数据。第一数据源为服务器采集的用户上网记录数据源。第一样本标识包括:终端设备号、应用程序用户账号或电话号码信息。第一历史数据包括:与终端设备号相对应的上网行为历史数据、与应用程序用户账号相对应的上网行为历史数据、与电话号码信息相对应的上网行为历史数据。例如,第一样本集合包括的第一样本数据为:终端设备号以及与该终端设备号对应的网页浏览历史记录。
其中,第二样本集合来源于第二数据源。第二样本集合包括:第二样本标识以及与第二样本标识相对应的第二历史数据。第二数据源为银行等金融机构部署的服务器采集的用户交易记录数据源。第二样本标识包括:金融账户信息或支付软件账号信息。金融账户信息具体为银行卡号或者信用卡号或其他金融支付账户户名。第二历史数据包括:与金融账户信息相对应的交易历史数据、与支付软件账号信息相对应的交易历史数据。例如,第二样本集合包括的第二样本数据为:银行卡号以及与该银行卡号对应的支付记录、转账记录等。
其中,第二样本集合还包括与第二样本标识相对应的用户标签。例如,与某交易特征相对应的某一用户标签。用户标签可以为多种,以符合不同的交易特征。用户标签用以表达或表示该交易特征。
其中,第一样本标识与第二样本标识具有关联关系,可以利用时空映射关系或业务逻辑关系,在第一样本集合和第二样本集合之间进行数据打通,使第一样本标识与第二样本标识具有关联关系。例如某用户的终端设备号与该用户的银行卡号之间具有一一对应的关联关系。
步骤S202,第一机器学习模型经过机器学习处理,得到第二机器学习模型;
其中,机器学习处理具体包括:步骤S2021至步骤S2026。
步骤S2021,基于第一历史数据生成第一用户特征。第一用户特征包括:上网行为特征。例如,第一机器学习模型经过对样本的机器学习训练,从若干用户样本中的与终端设备号相对应的网页浏览记录中提取出若干上网行为特征。
步骤S2022,基于第二历史数据生成第二用户特征。第二用户特征包括:交易行为特征。例如,第一机器学习模型经过对样本的机器学习训练,从若干用户样本中的与金融账户信息相对应的交易记录中提取出若干交易行为特征。
步骤S2023,基于第二历史数据与第二样本标识的关联关系、第二样本标识与第一样本标识的关联关系、第一样本标识与第一历史数据的关联关系,建立第二历史数据与第一历史数据的关联关系。
步骤S2024,基于第二历史数据与第一历史数据的关联关系,建立第一用户特征与第二用户特征的关联关系。
其中,第一样本标识与第二样本标识具有一一对应的关联关系,第一样本标识与第一历史数据具有关联关系,第二样本标识与第二历史数据具有关联关系,则第二历史数据与第一历史数据可以相互关联。进而第二历史数据生成的第二用户特征与第一历史数据生成的第一用户特征相互关联,从而实现上网行为特征与交易行为特征的相互关联。
步骤S2025,基于用户标签与第二历史数据的关联关系,建立用户标签与第二用户特征的关联关系。
步骤S2026,基于第一用户特征与第二用户特征的关联关系,建立用户标签与第一用户特征的关联关系。
其中,由于第二用户特征,即交易行为特征具有对应的用户标签,因此,基于上网行为特征与交易行为特征的关联关系,可以通过关联得到与上网行为特征相关联的以表达交易特征的用户标签。
第一机器学习模型通过以上步骤S2021至步骤S2026的机器学习处理,从而可以识别出上网行为特征和交易行为特征,并且还具有与上网行为特征相关联的并且能够表示交易特征的用户标签,从而构成了第二机器学习模型,即机器学习训练的模型结果。第二机器学习模型能够根据用户的上网行为历史数据识别出其中的上网行为特征,并根据其用户标识为其添加与上网行为特征相对应的用户标签,以表示其交易特征,进而输出用户标识以及与该标识对应的用以表示其交易特征的用户标签。
步骤S203,将用户数据输入第二机器学习模型。
其中,用户数据来源于第一数据源。用户数据包括:用户标识以及与用户标识相对应的第三历史数据。用户标识包括:终端设备号、应用程序用户账号或电话号码信息。第三历史数据包括:与终端设备号、应用程序用户账号或电话号码信息相对应的上网行为历史数据。第三历史数据与第一历史数据类型相同。即用户数据来源于上网记录数据源。第一样本集合和第二样本集合相比于用户数据为少量数据,用户数据则为没有经过数据打通的海量数据。
步骤S204,第二机器学习模型比较第三历史数据与第一用户特征。
步骤S205,当第三历史数据符合第一用户特征时,添加与第一用户特征具有关联关系的用户标签。
步骤S206,建立用户标签与用户标识的关联关系。用户标签用于表示用户的属性。
其中,第二机器学习模型基于之前机器学习训练得到的逻辑处理方式,将用户数据中的第三历史数据,即网页浏览历史数据,与上网行为特征相比较。如果用户数据符合某一上网行为特征,则根据该用户数据的标识,为其添加与该上网行为特征具有关联关系的用户标签,以表明该用户的交易行为特征。例如,向第二机器学习模型输入某用户的终端设备号以及与该终端设备号相对应的网页浏览历史数据,则第二机器学习模型输出该终端设备号以及与该终端设备号相对应的用户标签。该用户标签用于表示交易行为特征。该交易行为特征与该用户的上网行为特征相对应,该用户的上网行为特征通过第二机器学习模型对该用户的网页浏览历史数据进行识别得到。
本发明实施例二的基于不同数据源的用户分析方法的具体工作原理为:首先从上网记录数据源选取少量的第一样本集合,从交易记录数据源选取少量的第二样本集合。第一样本集合与第二样本集合通过数据打通而具有关联关系,例如第一样本集合的终端设备号与第二样本集合的银行卡号具有关联关系,以表示某用户同时使用的终端编号和银行卡号。将第一样本集合和第二样本集合输入至第一机器学习模型进行学习训练,从第一样本集合中提取出若干上网行为特征并从第二样本集合中提取出若干交易行为特征。例如,某一上网行为特征是从某网页浏览数据中提取的,则该上网行为特征与该网页浏览数据相对应,该网页浏览数据与某终端设备号相对应,该终端设备号与某银行卡号相关联,某交易记录数据与该银行卡号相对应,某交易行为特征从该交易记录数据中提取得到,则该交易行为特征与该上网行为特征具有关联关系。第二样本集合预先设有若干用户标签,例如对于某一类交易记录数据预先添加某种用户标签,则该用户标签与通过该类交易记录数据生成的交易行为特征相对应,进而与该交易行为特征相关联的上网行为特征也与该用户标签相对应。由此得到学习训练模型结果,即第二机器学习模型。将上网记录数据源中海量的未经过数据打通的用户数据输入至第二机器学习模型进行处理,例如该类用户数据包括终端设备号以及与该终端设备号相对应的网页浏览历史记录。第二机器学习模型发现某网页浏览历史记录符合某上网行为特征时,为其添加与该上网行为特征相关联的用户标签,而该用户标签实际表示的是交易行为特征,从而实现在海量数据中根据用户上网行为特征得到其对应的交易行为特征。本发明实施例二以终端设备号与银行卡号为例进行说明,但本发明并不以此为限。
本发明的基于不同数据源的用户分析方法,可以根据来源于完全不相关、不同层次、维度的数据源,例如网络行为分析数据源和银行的交易记录数据源,根据作为种子用户的样本数据特征,通过机器学习的方式,实现人群画像的跨数据源放大。通过少量已打通的种子人群数据进行深度学习,将有限的第一方标签扩大到海量的跨源可触达ID标识上,进行跨源ID的标签化,从而实现在全网10亿流量数据中寻找目标人群的效果。
现有技术中,数据源之间并没有相关的业务场景,表现为不同层次、不同维度,也没有类同的时间、空间记录关系,缺乏可模型运算的触手,而且数据打通的目标在于商业应用,缺少简单、高效的数据跨源打通、人群跨源放大的技术方案。本发明的基于不同数据源的用户分析方法,通过对少量种子用户的标签化识别,并在海量数据中进行机器学习,实现了简单、高效的跨数据源人群放大,为基于少量人群特征的跨数据源海量人群圈选应用提供了充分支撑,填补了现有技术的上述空白,解决了现有技术中的上述问题。与现有技术相比,本发明的基于不同数据源的用户分析方法,无需具有直接的对应关系的数据类型,通过对种子数据的深度机器学习,实现多标签扩展进行跨数据源数据的相关数据放大,在未进行基础数据ID标识打通的条件下,即用户数据不需要进行数据打通,实现跨源数据打通应用,具有简单、易用的商业价值。
实施例三
图3为本发明实施例三的基于不同数据源的用户分析装置的结构示意图,如图3所示,本发明实施例三的基于不同数据源的用户分析装置包括:第一输入模块31、机器学习模块32、第二输入模块33和分析模块34。
第一输入模块31,用于将第一样本集合和第二样本集合输入第一机器学习模型进行机器学习处理。
其中,第一样本集合来源于第一数据源。第一样本集合包括:第一样本标识以及与第一样本标识相对应的第一历史数据。第一样本标识包括:终端设备号、应用程序用户账号或电话号码信息。第一历史数据包括:与终端设备号、应用程序用户账号或电话号码信息相对应的上网行为历史数据。
其中,第二样本集合来源于第二数据源。第二样本集合包括:第二样本标识以及与第二样本标识相对应的第二历史数据和用户标签。第二样本标识包括:金融账户信息或支付软件账号信息。第二历史数据包括:与金融账户信息或支付软件账号信息相对应的交易历史数据。
其中,第一样本标识与第二样本标识具有关联关系。
机器学习模块32,用于机器学习处理,得到第二机器学习模型。
其中,机器学习模块32具体用于:
基于第一历史数据生成第一用户特征。第一用户特征包括:上网行为特征。
基于第二历史数据生成第二用户特征。第二用户特征包括:交易行为特征。
基于第二历史数据与第二样本标识的关联关系、第二样本标识与第一样本标识的关联关系、第一样本标识与第一历史数据的关联关系,建立第二历史数据与第一历史数据的关联关系。
基于第二历史数据与第一历史数据的关联关系,建立第一用户特征与第二用户特征的关联关系。
基于用户标签与第二历史数据的关联关系,建立用户标签与第二用户特征的关联关系。
基于第一用户特征与第二用户特征的关联关系,建立用户标签与第一用户特征的关联关系。
第二输入模块33,用于将用户数据输入第二机器学习模型。
其中,用户数据来源于第一数据源。用户数据包括:用户标识以及与用户标识相对应的第三历史数据。第三历史数据与第一历史数据类型相同。用户标识包括:终端设备号、应用程序用户账号或电话号码信息。第三历史数据包括:与终端设备号、应用程序用户账号或电话号码信息相对应的上网行为历史数据。
分析模块34,用于使第二机器学习模型根据用户数据添加用户标签;用户标签用于表示用户的属性。
其中,分析模块34具体用于:
使第二机器学习模型比较第三历史数据与第一用户特征;
当第三历史数据符合第一用户特征时,添加与第一用户特征具有关联关系的用户标签;
建立用户标签与用户标识的关联关系。
本发明实施例三的用户分析装置为本发明实施例二的用户分析方法的实现装置,其原理与实施例二相同,可参考实施例二的相关内容,此处不再赘述。
本发明实施例还提供一种存储设备,存储设备存储有指令,指令根据本发明的图1或图2所示的用户分析方法进行执行。
存储设备即为计算机可读介质,计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PhaseChange RAM,PRAM)、静态随机存取存储器(Static Random Access Memory,SRAM)、动态随机存取存储器(Dynamic Random Access Memory,DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(Electrically ErasableProgrammable Read-Only Memory,EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(Compact Disc Read-Only Memory,CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
本发明还提供一种计算设备,计算设备存储有指令,指令根据本发明的图1或图2所示的用户分析方法进行执行。
本发明所指计算设备包括但不限于任何一种可与用户进行人机交互(例如通过触摸板进行人机交互)的电子产品,例如智能手机、平板电脑等移动电子产品,所述移动电子产品可以采用任意操作系统,如android操作系统、iOS操作系统等。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (16)

1.一种基于不同数据源的用户分析方法,其特征在于,包括:
将第一样本集合和第二样本集合输入第一机器学习模型进行机器学习处理;其中,所述第一样本集合来源于第一数据源,所述第二样本集合来源于第二数据源;
所述第一机器学习模型经过所述机器学习处理,得到第二机器学习模型;
将用户数据输入所述第二机器学习模型;
所述第二机器学习模型根据所述用户数据添加用户标签;所述用户标签用于表示用户的属性。
2.根据权利要求1所述的用户分析方法,其特征在于,
所述第一样本集合包括:第一样本标识以及与所述第一样本标识相对应的第一历史数据;
所述第二样本集合包括:第二样本标识以及与所述第二样本标识相对应的第二历史数据和用户标签;
所述第一样本标识与所述第二样本标识具有关联关系。
3.根据权利要求2所述的用户分析方法,其特征在于,所述机器学习处理具体包括:
基于所述第一历史数据生成第一用户特征;
基于所述第二历史数据生成第二用户特征;
基于所述第二历史数据与所述第二样本标识的关联关系、所述第二样本标识与所述第一样本标识的关联关系、所述第一样本标识与所述第一历史数据的关联关系,建立所述第二历史数据与所述第一历史数据的关联关系;
基于所述第二历史数据与所述第一历史数据的关联关系,建立所述第一用户特征与所述第二用户特征的关联关系;
基于所述用户标签与所述第二历史数据的关联关系,建立所述用户标签与所述第二用户特征的关联关系;
基于所述第一用户特征与所述第二用户特征的关联关系,建立所述用户标签与所述第一用户特征的关联关系。
4.根据权利要求3所述的用户分析方法,其特征在于,
所述用户数据来源于所述第一数据源;
所述用户数据包括:用户标识以及与所述用户标识相对应的第三历史数据;
所述第三历史数据与所述第一历史数据类型相同。
5.根据权利要求4所述的用户分析方法,其特征在于,所述第二机器学习模型根据所述用户数据添加用户标签的步骤具体包括:
所述第二机器学习模型比较所述第三历史数据与所述第一用户特征;
当所述第三历史数据符合所述第一用户特征时,添加与所述第一用户特征具有关联关系的所述用户标签;
建立所述用户标签与所述用户标识的关联关系。
6.根据权利要求3至5中任一项所述的用户分析方法,其特征在于,
所述第一样本标识包括:终端设备号、应用程序用户账号或电话号码信息;
所述第一历史数据包括:与所述终端设备号、所述应用程序用户账号或所述电话号码信息相对应的上网行为历史数据;
所述第一用户特征包括:上网行为特征;
所述第二样本标识包括:金融账户信息或支付软件账号信息;
所述第二历史数据包括:与所述金融账户信息或所述支付软件账号信息相对应的交易历史数据;
所述第二用户特征包括:交易行为特征。
7.根据权利要求4或5中所述的用户分析方法,其特征在于,
所述用户标识包括:终端设备号、应用程序用户账号或电话号码信息;
所述第三历史数据包括:与所述终端设备号、所述应用程序用户账号或所述电话号码信息相对应的上网行为历史数据。
8.一种基于不同数据源的用户分析装置,其特征在于,包括:
第一输入模块,用于将第一样本集合和第二样本集合输入第一机器学习模型进行机器学习处理;其中,所述第一样本集合来源于第一数据源,所述第二样本集合来源于第二数据源;
机器学习模块,用于所述机器学习处理,得到第二机器学习模型;
第二输入模块,用于将用户数据输入所述第二机器学习模型;
分析模块,用于使所述第二机器学习模型根据所述用户数据添加用户标签;所述用户标签用于表示用户的属性。
9.根据权利要求8所述的用户分析装置,其特征在于,
所述第一样本集合包括:第一样本标识以及与所述第一样本标识相对应的第一历史数据;
所述第二样本集合包括:第二样本标识以及与所述第二样本标识相对应的第二历史数据和用户标签;
所述第一样本标识与所述第二样本标识具有关联关系。
10.根据权利要求9所述的用户分析装置,其特征在于,所述机器学习模块具体用于:
基于所述第一历史数据生成第一用户特征;
基于所述第二历史数据生成第二用户特征;
基于所述第二历史数据与所述第二样本标识的关联关系、所述第二样本标识与所述第一样本标识的关联关系、所述第一样本标识与所述第一历史数据的关联关系,建立所述第二历史数据与所述第一历史数据的关联关系;
基于所述第二历史数据与所述第一历史数据的关联关系,建立所述第一用户特征与所述第二用户特征的关联关系;
基于所述用户标签与所述第二历史数据的关联关系,建立所述用户标签与所述第二用户特征的关联关系;
基于所述第一用户特征与所述第二用户特征的关联关系,建立所述用户标签与所述第一用户特征的关联关系。
11.根据权利要求10所述的用户分析装置,其特征在于,
所述用户数据来源于所述第一数据源;
所述用户数据包括:用户标识以及与所述用户标识相对应的第三历史数据;
所述第三历史数据与所述第一历史数据类型相同。
12.根据权利要求11所述的用户分析装置,其特征在于,所述分析模块具体用于:
使所述第二机器学习模型比较所述第三历史数据与所述第一用户特征;
当所述第三历史数据符合所述第一用户特征时,添加与所述第一用户特征具有关联关系的所述用户标签;
建立所述用户标签与所述用户标识的关联关系。
13.根据权利要求10至12中任一项所述的用户分析装置,其特征在于,
所述第一样本标识包括:终端设备号、应用程序用户账号或电话号码信息;
所述第一历史数据包括:与所述终端设备号、所述应用程序用户账号或所述电话号码信息相对应的上网行为历史数据;
所述第一用户特征包括:上网行为特征;
所述第二样本标识包括:金融账户信息或支付软件账号信息;
所述第二历史数据包括:与所述金融账户信息或所述支付软件账号信息相对应的交易历史数据;
所述第二用户特征包括:交易行为特征。
14.根据权利要求11或12中所述的用户分析装置,其特征在于,
所述用户标识包括:终端设备号、应用程序用户账号或电话号码信息;
所述第三历史数据包括:与所述终端设备号、所述应用程序用户账号或所述电话号码信息相对应的上网行为历史数据。
15.一种存储设备,其特征在于,所述存储设备存储有指令,所述指令根据权利要求1至7中任一项所述的用户分析方法进行执行。
16.一种计算设备,其特征在于,所述计算设备存储有指令,所述指令根据权利要求1至7中任一项所述的用户分析方法进行执行。
CN201810958242.XA 2018-08-22 2018-08-22 一种基于不同数据源的用户分析方法和装置及计算设备 Active CN110020196B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810958242.XA CN110020196B (zh) 2018-08-22 2018-08-22 一种基于不同数据源的用户分析方法和装置及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810958242.XA CN110020196B (zh) 2018-08-22 2018-08-22 一种基于不同数据源的用户分析方法和装置及计算设备

Publications (2)

Publication Number Publication Date
CN110020196A true CN110020196A (zh) 2019-07-16
CN110020196B CN110020196B (zh) 2021-08-06

Family

ID=67188402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810958242.XA Active CN110020196B (zh) 2018-08-22 2018-08-22 一种基于不同数据源的用户分析方法和装置及计算设备

Country Status (1)

Country Link
CN (1) CN110020196B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110716843A (zh) * 2019-09-09 2020-01-21 深圳壹账通智能科技有限公司 系统故障分析处理方法、装置、存储介质及电子设备
CN111400061A (zh) * 2020-03-12 2020-07-10 泰康保险集团股份有限公司 一种数据处理方法和系统
CN111695565A (zh) * 2020-06-14 2020-09-22 荆门汇易佳信息科技有限公司 基于道路关卡模糊图像的汽车标志精准定位方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170270215A1 (en) * 2014-12-01 2017-09-21 Pleenq, LLC Navigation control for network clients
CN107391603A (zh) * 2017-06-30 2017-11-24 北京奇虎科技有限公司 用于移动终端的用户画像建立方法及装置
CN107451861A (zh) * 2017-07-27 2017-12-08 中兴软创科技股份有限公司 一种大数据下用户上网特征识别的方法
CN108021929A (zh) * 2017-11-16 2018-05-11 华南理工大学 基于大数据的移动端电商用户画像建立与分析方法及系统
CN108154401A (zh) * 2018-01-15 2018-06-12 网易无尾熊(杭州)科技有限公司 用户画像刻画方法、装置、介质和计算设备
CN108415965A (zh) * 2018-02-07 2018-08-17 五维引力(上海)数据服务有限公司 一种基于多数据源的数据处理方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170270215A1 (en) * 2014-12-01 2017-09-21 Pleenq, LLC Navigation control for network clients
CN107391603A (zh) * 2017-06-30 2017-11-24 北京奇虎科技有限公司 用于移动终端的用户画像建立方法及装置
CN107451861A (zh) * 2017-07-27 2017-12-08 中兴软创科技股份有限公司 一种大数据下用户上网特征识别的方法
CN108021929A (zh) * 2017-11-16 2018-05-11 华南理工大学 基于大数据的移动端电商用户画像建立与分析方法及系统
CN108154401A (zh) * 2018-01-15 2018-06-12 网易无尾熊(杭州)科技有限公司 用户画像刻画方法、装置、介质和计算设备
CN108415965A (zh) * 2018-02-07 2018-08-17 五维引力(上海)数据服务有限公司 一种基于多数据源的数据处理方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110716843A (zh) * 2019-09-09 2020-01-21 深圳壹账通智能科技有限公司 系统故障分析处理方法、装置、存储介质及电子设备
WO2021047184A1 (zh) * 2019-09-09 2021-03-18 深圳壹账通智能科技有限公司 系统故障分析处理方法、装置、存储介质及电子设备
CN110716843B (zh) * 2019-09-09 2022-11-22 深圳壹账通智能科技有限公司 系统故障分析处理方法、装置、存储介质及电子设备
CN111400061A (zh) * 2020-03-12 2020-07-10 泰康保险集团股份有限公司 一种数据处理方法和系统
CN111695565A (zh) * 2020-06-14 2020-09-22 荆门汇易佳信息科技有限公司 基于道路关卡模糊图像的汽车标志精准定位方法

Also Published As

Publication number Publication date
CN110020196B (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
Reimsbach-Kounatze The proliferation of “big data” and implications for official statistics and statistical agencies: A preliminary analysis
CN108805583B (zh) 基于地址映射的电商欺诈检测方法、装置、设备及介质
CN106940705A (zh) 一种用于构建用户画像的方法与设备
CN102215300B (zh) 电信业务推荐方法和系统
CN109711887A (zh) 商城推荐列表的生成方法、装置、电子设备及计算机介质
CN110310163A (zh) 一种精准制定营销策略的方法、设备及可读介质
CN109902250A (zh) 问卷调查的共享方法、共享装置、计算机设备及存储介质
CN110020196A (zh) 一种基于不同数据源的用户分析方法和装置及计算设备
CN110750530B (zh) 一种业务系统及其数据核对方法
CN108564393A (zh) 潜在客户评分方法、装置和系统
CN106227743B (zh) 广告目标群体触达比率评估方法及装置
CN109408522A (zh) 一种用户特征数据的更新方法和装置
CN107766891A (zh) 用户性别识别方法、装置、存储介质及电子设备
CN108804525A (zh) 一种智能回答方法及装置
Plouraboue et al. Learing Induced Criticality In Consumers' Adoption Pattern: A Neural Network Approach
Phillips et al. Testing the martingale hypothesis
CN107729330B (zh) 获取数据集的方法和装置
CN109992652A (zh) 一种信息回复方法、装置、设备及存储介质
Illig et al. A comparison of content-based tag recommendations in folksonomy systems
CN104751234B (zh) 一种用户资产的预测方法及装置
Lehman et al. Practical spreadsheet risk modeling for management
CN109582834B (zh) 数据风险预测方法及装置
CN116861107A (zh) 业务内容展示方法、装置、设备、介质和产品
CN111553487B (zh) 一种业务对象识别方法及装置
CN104839962A (zh) 一种智能钱包及其信息处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210708

Address after: 511450 No.401, Huajing Creative Park, No.1, Jiangxi zhannan Road, Dalong street, Panyu District, Guangzhou City, Guangdong Province

Applicant after: Long Kai

Address before: 201203 Room 201, building Y2, 112 liangxiu Road, Pudong New Area, Shanghai

Applicant before: 5DGRAVITY (SHANGHAI) DATA SERVICES Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221008

Address after: 215500 1708, Building 1, Jiangnan Building, No. 1, Haiyu South Road, Changshu, Suzhou, Jiangsu

Patentee after: Tongchuang Hongxing (Suzhou) Biotechnology Co.,Ltd.

Address before: 511450 No.401, Huajing Creative Park, No.1, Jiangxi zhannan Road, Dalong street, Panyu District, Guangzhou City, Guangdong Province

Patentee before: Long Kai

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240408

Address after: Unit 1801C2, Building 2, Unit 4, CITIC Longsheng Plaza, No. 219 Shenshan Road (Longgang Section), Longxin Community, Baolong Street, Longgang District, Shenzhen City, Guangdong Province, 518116

Patentee after: Shenzhen Moyi Fish Technology Co.,Ltd.

Country or region after: China

Address before: 215500 1708, Building 1, Jiangnan Building, No. 1, Haiyu South Road, Changshu, Suzhou, Jiangsu

Patentee before: Tongchuang Hongxing (Suzhou) Biotechnology Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right