CN116304358A - 一种用户数据采集方法 - Google Patents

一种用户数据采集方法 Download PDF

Info

Publication number
CN116304358A
CN116304358A CN202310554608.8A CN202310554608A CN116304358A CN 116304358 A CN116304358 A CN 116304358A CN 202310554608 A CN202310554608 A CN 202310554608A CN 116304358 A CN116304358 A CN 116304358A
Authority
CN
China
Prior art keywords
data
user behavior
data points
point
points
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310554608.8A
Other languages
English (en)
Other versions
CN116304358B (zh
Inventor
王晓宇
贾琦
乜潇莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Anxun Technology Co ltd
Original Assignee
Jinan Anxun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Anxun Technology Co ltd filed Critical Jinan Anxun Technology Co ltd
Priority to CN202310554608.8A priority Critical patent/CN116304358B/zh
Publication of CN116304358A publication Critical patent/CN116304358A/zh
Application granted granted Critical
Publication of CN116304358B publication Critical patent/CN116304358B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于数据采集技术领域,具体涉及一种用户数据采集方法,包括以下步骤:S1、将用户行为数据转化为数据点集合;S2、使用支持向量机对数据点进行分类;S3、定义多个马尔可夫链将数据点映射到状态序列;S4、使用高阶哈希函数将数据点映射到高维向量空间;S5、将分类器、马尔可夫链和高阶哈希函数的结果合并表示用户行为数据。本发明可以高效地采集用户行为数据,实现跨平台数据的统一性,提高数据的安全性,同时也为企业实现个性化推荐和精准营销提供了重要的技术支持。

Description

一种用户数据采集方法
技术领域
本发明属于数据采集技术领域,具体涉及一种用户数据采集方法。
背景技术
随着移动互联网的普及,用户行为数据逐渐成为了互联网企业竞争的重要资源,这些数据可以帮助企业了解用户需求,精准推荐产品和服务,提高用户黏性和留存率。然而,如何高效地采集用户行为数据成为了互联网企业所面临的共同问题。
目前已经存在的技术主要包括两种:第一种是通过网站、APP等渠道进行用户行为数据的收集和分析,第二种是通过第三方工具对网站、APP等渠道进行监控和分析。
第一种方式的优点是可以通过自己的渠道收集数据,并根据业务需求自由调整数据采集的方式和范围。但是这种方式也存在一些缺点,比如用户行为数据的采集效率低下、数据不够全面、难以解决跨平台数据统一性等问题。
第二种方式通过第三方工具对用户行为数据进行监控和分析,相比第一种方式,能够更加全面和深入地了解用户行为。但是这种方式也存在一些问题,比如需要在网站或APP中添加第三方代码,可能会影响网站或APP的性能和用户体验;同时,由于第三方工具需要在网站或APP中插入代码,存在安全隐患。
因此,需要一种高效、安全、可靠的用户行为数据采集方法和系统,以解决用户行为数据采集中存在的各种问题。该方法和系统需要能够在不影响用户使用体验的情况下,快速、全面、准确地采集用户行为数据,并实现数据的实时处理和分析。
发明内容
本发明的主要目的在于提供一种用户数据采集方法,本发明可以高效地采集用户行为数据,实现跨平台数据的统一性,提高数据的安全性,同时也为企业实现个性化推荐和精准营销提供了重要的技术支持。
为解决上述技术问题,本发明提供一种用户数据采集方法,所述方法包括:
步骤S1:选择用于收集用户数据的数据点集合,其中数据点集合包括多个数据点,每个数据点由一组数据特征和对应的标签表示;
步骤S2:通过改进的支持向量机,训练一个分类器,该分类器对数据点集合中的数据点进行分类,并将分类结果作为用户行为数据的分类表示;
步骤S3:基于多个马尔可夫链,将数据点集合映射到一组状态序列,其中每个状态表示一个数据点集合中的数据点,该组状态序列用于表示用户行为数据的序列特征;
步骤S4:使用一种高阶哈希函数将数据点集合中的每个数据点映射到一个高维向量空间中的一个点,每个点用于表示用户行为数据的隐含特征;
步骤S5:将步骤S2中训练的分类器、步骤S3中生成的状态序列和步骤S4中生成的高维向量空间中的点组合起来,形成采集到的用户行为数据的表示,完成本次用户数据采集。
进一步的,所述数据点集合为用户行为数据的集合,为一组用户行为数据;所述数据点为数据点集合中的一个单独的数据实例,每个数据点代表了用户在某个时间点上的一次用户行为数据。
进一步的,所述步骤S2具体包括以下过程:准备用于训练分类器的数据点集合;数据点集合中的每个数据点都有一组数据特征和对应的标签;数据特征是用于描述数据点的属性,标签则表示数据点的类别;对于每个数据点,从原始数据中提取出一组数据特征;使用改进的支持向量机,对准备好的数据集进行训练;在训练过程中,分类器会学习如何将数据特征与标签相关联,并将这个关联关系用于将数据点分类,作为分类结果;最后将分类结果作为用户行为数据的分类表示。
进一步的,所述步骤S2中改进的支持向量机使用以下公式表示:
Figure SMS_1
满足以下条件:
Figure SMS_2
其中,
Figure SMS_3
是分类器的权重向量,
Figure SMS_4
是松弛变量,
Figure SMS_5
是正则化参数,
Figure SMS_6
是特征映射函 数,
Figure SMS_7
是数据点的数据特征,
Figure SMS_8
是数据点的标签;
Figure SMS_9
为数据点的个数。
进一步的,所述步骤S3具体包括以下过程:将数据点集合中的数据点根据时间顺序排列,形成一个时间序列;定义多个马尔可夫链,每个马尔可夫链包含一组状态,表示数据点集合中的数据点在特定时间窗口内的状态;对于每个时间窗口内的数据点集合,使用步骤S2中训练得到的分类器对数据点进行分类,并将分类结果作为该时间窗口的状态;对于时间序列中的每个时间窗口,将得到的状态组成一个状态序列,得到一个马尔可夫链的状态序列;对于多个马尔可夫链,将它们的状态序列合并,形成一个用于表示用户行为数据的序列特征的状态序列。
进一步的,所述多个马尔可夫链的转移矩阵使用以下公式进行定义:
Figure SMS_10
其中,
Figure SMS_14
表示在时间步
Figure SMS_17
时,数据点
Figure SMS_21
的隐含状态,
Figure SMS_12
表示数据点
Figure SMS_18
的观察状态,
Figure SMS_22
表示数据点
Figure SMS_25
之外的所有数据点的隐含状态;
Figure SMS_11
表示在当前状态下的特 征函数,
Figure SMS_15
Figure SMS_19
Figure SMS_23
是学习的权重参数,用于权衡不同特征函数的重要性;
Figure SMS_13
表示对数 据点
Figure SMS_16
的隐含状态
Figure SMS_20
进行求和;公式的分子表示在当前状态下,转移到状态
Figure SMS_24
的概 率,分母表示在当前状态下,所有可能状态的概率之和,用于归一化,保证转移概率的和为 1。
进一步的,所述步骤S4具体包括以下过程:对于数据点集合中的每个数据点,计算 其对应的特征向量,得到一个由特征向量组成的矩阵,记为
Figure SMS_26
;高阶哈希函数,将
Figure SMS_27
中的每 个特征向量映射到一个高维向量空间中的一个点,从而得到每个特征向量的高维向量;将 得到的高维向量组成一个矩阵
Figure SMS_28
,其中每个向量用于表示用户行为数据的隐含特征。
进一步的,所述对于数据点集合中的每个数据点,计算其对应的特征向量的具体过程包括:对于数据点集合中的每个数据点,计算它与其他数据点之间的相似度,将该相似度作为其特征向量。
进一步的,所述步骤S4中的高阶哈希函数使用以下公式:
Figure SMS_29
其中,
Figure SMS_31
是输入特征向量,
Figure SMS_33
是第
Figure SMS_36
个哈希函数中的第
Figure SMS_32
个向量,
Figure SMS_34
是第
Figure SMS_37
个哈 希函数中的第
Figure SMS_39
个截距项,
Figure SMS_30
是哈希函数的数量,
Figure SMS_35
是第
Figure SMS_38
个哈希函数中的向量数量;
Figure SMS_40
为将特征向量映射到一个高维向量空间中的一个点。
进一步的,所述步骤S5中的用户行为数据的表示使用以下公式:
Figure SMS_41
其中,
Figure SMS_42
是用户行为数据的表示,
Figure SMS_43
是步骤S2中的分类器对用户行为数 据进行分类的分类结果,
Figure SMS_44
是步骤S3中的多个马尔可夫链将用户行为数据映射到状 态序列的结果,
Figure SMS_45
是步骤S4中的高阶哈希函数将用户行为数据映射到高维向量空间 中的结果。
本发明的一种用户数据采集方法,具有以下有益效果:
1.提高用户数据采集的效率和准确性:采集用户数据一直是数据分析和数据科学领域中的重要问题,而本发明提出的方法可以高效地采集用户数据并提高数据的准确性。具体来说,该方法利用支持向量机分类器对数据点进行分类,将分类结果作为用户行为数据的分类表示,同时利用多个马尔可夫链将数据点集合映射到一组状态序列,将数据点的时序信息加入到用户行为数据的表示中,从而可以更加准确地描述用户行为。
2.实现跨平台数据统一性:现在的用户数据来源多种多样,如社交媒体、在线购物平台、移动应用程序等,这些数据往往存储在不同的平台和系统中,数据格式和数据结构也各不相同。本发明提出的高阶哈希函数可以将数据点集合中的每个数据点映射到一个高维向量空间中的一个点,每个点用于表示用户行为数据的隐含特征,从而实现跨平台数据的统一性,方便数据的处理和分析。
3.提高数据采集的安全性:随着用户数据的不断增加和泄露事件的频繁发生,数据安全性问题越来越引起人们的关注。本发明提出的方法使用高阶哈希函数将数据点集合中的每个数据点映射到一个高维向量空间中的一个点,每个点用于表示用户行为数据的隐含特征,这样可以避免将用户原始数据暴露在公共网络中,提高数据的安全性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种用户数据采集方法的方法流程示意图。
具体实施方式
下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。
实施例1
一种用户数据采集方法,所述方法包括:
步骤S1:选择用于收集用户数据的数据点集合,其中数据点集合包括多个数据点,每个数据点由一组数据特征和对应的标签表示;
步骤S2:通过改进的支持向量机,训练一个分类器,该分类器对数据点集合中的数据点进行分类,并将分类结果作为用户行为数据的分类表示;
步骤S3:基于多个马尔可夫链,将数据点集合映射到一组状态序列,其中每个状态表示一个数据点集合中的数据点,该组状态序列用于表示用户行为数据的序列特征;
步骤S4:使用一种高阶哈希函数将数据点集合中的每个数据点映射到一个高维向量空间中的一个点,每个点用于表示用户行为数据的隐含特征;
步骤S5:将步骤S2中训练的分类器、步骤S3中生成的状态序列和步骤S4中生成的高维向量空间中的点组合起来,形成采集到的用户行为数据的表示,完成本次用户数据采集。
其中,步骤S5将前面各个步骤生成的不同的数据表示方式结合起来,形成一个全面、多维度的用户行为数据表示,从而更全面、更准确地反映用户的行为特征。具体而言,步骤S2中训练的分类器能够对用户行为数据进行分类,从而提取出用户行为的类别信息;步骤S3中生成的状态序列能够表达用户行为数据的时序特征,例如某个用户的行为是否呈现出周期性或趋势性;步骤S4中生成的高维向量能够表达用户行为数据的隐含特征,例如某些用户行为的关联性等。将这些不同维度的数据表示方式结合起来,可以更全面、更准确地刻画用户的行为特征,从而为后续的用户行为分析和推荐提供更有力的支持。
具体地,所述数据点集合为用户行为数据的集合,为一组用户行为数据;所述数据点为数据点集合中的一个单独的数据实例,每个数据点代表了用户在某个时间点上的一次用户行为数据。
其中,用户行为数据包括以下一项或多项:网页浏览记录、搜索记录、购买行为、社交行为、应用使用记录和位置数据;
网页浏览记录包括:访问网页、停留时间和浏览路径;搜索记录包括:搜索关键词、搜索结果点击率和搜索时间;购买行为包括:购买商品、购买时间和购买价格;社交行为包括:用户在社交媒体上的互动、朋友关系、发布内容等;应用使用记录包括:用户使用哪些应用程序、使用时间、使用频率等;位置数据包括:用户在哪些位置停留、停留时间、移动轨迹等。
具体地,所述步骤S2具体包括以下过程:对于每个数据点,从原始数据中提取出一组数据特征;使用改进的支持向量机,对准备好的数据集进行训练;在训练过程中,分类器会学习如何将数据特征与标签相关联,并将这个关联关系用于将数据点分类,作为分类结果;最后将分类结果作为用户行为数据的分类表示;数据点集合中的每个数据点都有一组数据特征和对应的标签;数据特征是用于描述数据点的属性,标签则表示数据点的类别。
具体地,所述步骤S2中改进的支持向量机使用以下公式表示:
Figure SMS_46
满足以下条件:
Figure SMS_47
其中,
Figure SMS_48
是分类器的权重向量,
Figure SMS_49
是松弛变量,
Figure SMS_50
是正则化参数,
Figure SMS_51
是特征映射函 数,
Figure SMS_52
是数据点的数据特征,
Figure SMS_53
是数据点的标签;
Figure SMS_54
为数据点的个数。
其中,松弛变量是一种容错机制,允许一些数据点被错误地分类或者位于超平面的错误一侧。具体来说,在线性可分的情况下,改进的支持向量机的目标是找到一个可以将不同类别的数据分开的超平面,使得距离超平面最近的一些数据点(即支持向量)到超平面的距离最大化,而松弛变量的引入则是为了在非线性可分的情况下,尽可能地找到一个分离平面,同时最小化错误分类的点数和错误分类的严重程度。
特征映射函数
Figure SMS_55
的表达式可以有多种形式,其中一个比较常用的是基于核函数 的映射。具体来说,给定输入向量
Figure SMS_56
和另一个向量
Figure SMS_57
,核函数将它们映射到一个高维特征空 间,然后在这个高维空间中计算它们的内积,即
Figure SMS_58
,其中
Figure SMS_59
是核 函数,
Figure SMS_60
是特征映射函数。常见的核函数包括线性核、多项式核、高斯核等。在实际应用 中,选择适合数据特征的核函数可以显著提高分类器的性能。
具体地,所述步骤S3具体包括以下过程:将数据点集合中的数据点根据时间顺序排列,形成一个时间序列;定义多个马尔可夫链,每个马尔可夫链包含一组状态,表示数据点集合中的数据点在特定时间窗口内的状态;对于每个时间窗口内的数据点集合,使用步骤S2中训练得到的分类器对数据点进行分类,并将分类结果作为该时间窗口的状态;对于时间序列中的每个时间窗口,将得到的状态组成一个状态序列,得到一个马尔可夫链的状态序列;对于多个马尔可夫链,将它们的状态序列合并,形成一个用于表示用户行为数据的序列特征的状态序列。
其中,步骤S3的具体过程是将数据点集合按照时间顺序排列,形成一个时间序列。然后,可以将每个时间窗口内的数据点集合使用步骤S2中训练好的分类器进行分类,并将分类结果作为该时间窗口的状态。为了表示数据点集合在特定时间窗口内的状态,定义了多个马尔可夫链,每个马尔可夫链包含一组状态。对于时间序列中的每个时间窗口,将得到的状态组成一个状态序列,得到一个马尔可夫链的状态序列。最后,将多个马尔可夫链的状态序列合并,形成一个用于表示用户行为数据的序列特征的状态序列。
马尔可夫链是一种表示随机过程的数学模型,它满足马尔可夫性质,即当前状态只与前一状态有关,与之前的所有状态无关。在步骤S3中,使用多个马尔可夫链来表示数据点集合的状态。这样可以将数据点集合在时间上分解成多个小的时间窗口,在每个时间窗口内使用分类器将数据点进行分类,并将分类结果作为该时间窗口的状态。因此,马尔可夫链能够较好地表示用户行为的连续性和演变规律。
具体地,所述多个马尔可夫链的转移矩阵使用以下公式进行定义:
Figure SMS_61
其中,
Figure SMS_62
表示在时间步
Figure SMS_67
时,数据点
Figure SMS_71
的隐含状态,
Figure SMS_64
表示数据点
Figure SMS_69
的观察状态,
Figure SMS_73
表示数据点
Figure SMS_76
之外的所有数据点的隐含状态;
Figure SMS_65
表示在当前状态下的特 征函数,
Figure SMS_66
Figure SMS_70
Figure SMS_74
是学习的权重参数,用于权衡不同特征函数的重要性;
Figure SMS_63
表示对数 据点
Figure SMS_68
的隐含状态
Figure SMS_72
进行求和;公式的分子表示在当前状态下,转移到状态
Figure SMS_75
的概 率,分母表示在当前状态下,所有可能状态的概率之和,用于归一化,保证转移概率的和为 1。
具体地,所述步骤S4具体包括以下过程:对于数据点集合中的每个数据点,计算其 对应的特征向量,得到一个由特征向量组成的矩阵,记为
Figure SMS_77
;高阶哈希函数,将
Figure SMS_78
中的每个 特征向量映射到一个高维向量空间中的一个点,从而得到每个特征向量的高维向量;将得 到的高维向量组成一个矩阵
Figure SMS_79
,其中每个向量用于表示用户行为数据的隐含特征。
在步骤S4中,主要包括两个过程:特征向量计算和高维向量映射。
首先,对于数据点集合中的每个数据点,需要计算其对应的特征向量。这个特征向量通常由该数据点的多个属性组成,每个属性代表该数据点的某种特征。例如,在用户行为数据的场景下,一个数据点可能包含用户的年龄、性别、地理位置、访问时间等属性,这些属性可以组成一个特征向量。
接下来,使用高阶哈希函数将特征向量映射到一个高维向量空间中的一个点。高阶哈希函数是一种非线性映射函数,可以将低维特征向量映射到高维向量空间中,从而增加特征向量的维度。这个高维向量通常包含了特征向量的多种组合和变换,更加丰富和全面地表达了用户行为数据的隐含特征。
最终,将得到的高维向量组成一个矩阵Y,其中每个向量用于表示用户行为数据的隐含特征。这个矩阵Y可以作为用户行为数据的另一种表示方式,与步骤S3中生成的状态序列结合使用,更全面地描述和理解用户的行为模式。
具体地,所述对于数据点集合中的每个数据点,计算其对应的特征向量的具体过程包括:对于数据点集合中的每个数据点,计算它与其他数据点之间的相似度,将该相似度作为其特征向量。
其中,相似度被视为数据点的特征,因为它包含了该数据点与其他数据点之间的关系。在许多机器学习应用中,相似度或距离度量通常被用作特征,因为它们可以很好地描述数据点之间的相似性和差异性,同时避免了对原始数据进行复杂处理的需求。在本专利中,使用相似度作为特征向量的依据是为了捕捉用户行为数据的相关性,并在后续的处理中提供更多的信息。
具体地,所述步骤S4中的高阶哈希函数使用以下公式:
Figure SMS_80
其中,
Figure SMS_81
是输入特征向量,
Figure SMS_84
是第
Figure SMS_87
个哈希函数中的第
Figure SMS_82
个向量,
Figure SMS_85
是第
Figure SMS_88
个哈 希函数中的第
Figure SMS_90
个截距项,
Figure SMS_83
是哈希函数的数量,
Figure SMS_86
是第
Figure SMS_89
个哈希函数中的向量数量;
Figure SMS_91
为将特征向量映射到一个高维向量空间中的一个点。
其中,高阶哈希函数的公式描述了一个高阶哈希函数,它将输入特征向量
Figure SMS_92
映射 到一个高维向量空间中的一个点。具体而言,该函数使用
Figure SMS_93
个哈希函数,每个哈希函数中 包含
Figure SMS_94
个向量和对应的截距项。对于输入向量
Figure SMS_95
,该函数将其与每个哈希函数中的向量 进行点积操作并加上对应的截距项,然后将这些值取乘积并求和,最终得到一个标量值,表 示
Figure SMS_96
在高维向量空间中的位置。由于使用多个哈希函数,这种映射能够更好地保持原始向 量之间的距离关系,从而更好地保留输入向量的结构信息。
具体地,所述步骤S5中的用户行为数据的表示使用以下公式:
Figure SMS_97
其中,
Figure SMS_98
是用户行为数据的表示,
Figure SMS_99
是步骤S2中的分类器对用户行为数 据进行分类的分类结果,
Figure SMS_100
是步骤S3中的多个马尔可夫链将用户行为数据映射到状 态序列的结果,
Figure SMS_101
是步骤S4中的高阶哈希函数将用户行为数据映射到高维向量空间 中的结果。
其中,在步骤S5中,用户行为数据的表示使用了步骤S2、S3和S4中得到的结果。
Figure SMS_102
表示步骤S2中的分类器对用户行为数据进行分类的分类结果,可以看作是一个 二元变量,表示用户行为的类别;
Figure SMS_103
表示步骤S3中的多个马尔可夫链将用户行为数据 映射到状态序列的结果,可以看作是一个序列变量,表示用户行为的时序性和演化过程;
Figure SMS_104
表示步骤S4中的高阶哈希函数将用户行为数据映射到高维向量空间中的结果,可 以看作是一个向量变量,表示用户行为的特征。将这三种不同类型的结果结合起来,得到了 一个综合的用户行为数据表示,可以更好地反映用户的行为特征和行为演化过程。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的一种用户数据采集方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (10)

1.一种用户数据采集方法,其特征在于,所述方法包括:
步骤S1:选择用于收集用户数据的数据点集合,其中数据点集合包括多个数据点,每个数据点由一组数据特征和对应的标签表示;
步骤S2:通过改进的支持向量机,训练一个分类器,该分类器对数据点集合中的数据点进行分类,并将分类结果作为用户行为数据的分类表示;
步骤S3:基于多个马尔可夫链,将数据点集合映射到一组状态序列,其中每个状态表示一个数据点集合中的数据点,该组状态序列用于表示用户行为数据的序列特征;
步骤S4:使用一种高阶哈希函数将数据点集合中的每个数据点映射到一个高维向量空间中的一个点,每个点用于表示用户行为数据的隐含特征;
步骤S5:将步骤S2中训练的分类器、步骤S3中生成的状态序列和步骤S4中生成的高维向量空间中的点组合起来,形成采集到的用户行为数据的表示,完成本次用户数据采集。
2.如权利要求1所述的方法,其特征在于,所述数据点集合为用户行为数据的集合,为一组用户行为数据;所述数据点为数据点集合中的一个单独的数据实例,每个数据点代表了用户在某个时间点上的一次用户行为数据。
3.如权利要求2所述的方法,其特征在于,所述步骤S2具体包括以下过程:对于每个数据点,从原始数据中提取出一组数据特征;使用改进的支持向量机,对准备好的数据集进行训练;在训练过程中,分类器会学习如何将数据特征与标签相关联,并将这个关联关系用于将数据点分类,作为分类结果;最后将分类结果作为用户行为数据的分类表示;数据点集合中的每个数据点都有一组数据特征和对应的标签;数据特征是用于描述数据点的属性,标签则表示数据点的类别。
4.如权利要求3所述的方法,其特征在于,所述步骤S2中改进的支持向量机使用以下公式表示:
Figure QLYQS_1
满足以下条件:
Figure QLYQS_2
其中,
Figure QLYQS_3
是分类器的权重向量,/>
Figure QLYQS_4
是松弛变量,/>
Figure QLYQS_5
是正则化参数,/>
Figure QLYQS_6
是特征映射函数,
Figure QLYQS_7
是数据点的数据特征,/>
Figure QLYQS_8
是数据点的标签;/>
Figure QLYQS_9
为数据点的个数。
5.如权利要求2所述的方法,其特征在于,所述步骤S3具体包括以下过程:将数据点集合中的数据点根据时间顺序排列,形成一个时间序列;定义多个马尔可夫链,每个马尔可夫链包含一组状态,表示数据点集合中的数据点在特定时间窗口内的状态;对于每个时间窗口内的数据点集合,使用步骤S2中训练得到的分类器对数据点进行分类,并将分类结果作为该时间窗口的状态;对于时间序列中的每个时间窗口,将得到的状态组成一个状态序列,得到一个马尔可夫链的状态序列;对于多个马尔可夫链,将它们的状态序列合并,形成一个用于表示用户行为数据的序列特征的状态序列。
6.如权利要求5所述的方法,其特征在于,所述多个马尔可夫链的转移矩阵使用以下公式进行定义:
Figure QLYQS_10
其中,
Figure QLYQS_12
表示在时间步/>
Figure QLYQS_16
时,数据点/>
Figure QLYQS_20
的隐含状态,/>
Figure QLYQS_13
表示数据点/>
Figure QLYQS_15
的观察状态,/>
Figure QLYQS_19
表示数据点/>
Figure QLYQS_23
之外的所有数据点的隐含状态;/>
Figure QLYQS_11
表示在当前状态下的特征函数,
Figure QLYQS_17
,/>
Figure QLYQS_21
,/>
Figure QLYQS_24
是学习的权重参数,用于权衡不同特征函数的重要性;/>
Figure QLYQS_14
表示对数据点/>
Figure QLYQS_18
的隐含状态/>
Figure QLYQS_22
进行求和;公式的分子表示在当前状态下,转移到状态/>
Figure QLYQS_25
的概率,分母表示在当前状态下,所有可能状态的概率之和,用于归一化,保证转移概率的和为1。
7.如权利要求2所述的方法,其特征在于,所述步骤S4具体包括以下过程:对于数据点集合中的每个数据点,计算其对应的特征向量,得到一个由特征向量组成的矩阵,记为
Figure QLYQS_26
;高阶哈希函数,将/>
Figure QLYQS_27
中的每个特征向量映射到一个高维向量空间中的一个点,从而得到每个特征向量的高维向量;将得到的高维向量组成一个矩阵/>
Figure QLYQS_28
,其中每个向量用于表示用户行为数据的隐含特征。
8.如权利要求7所述的方法,其特征在于,所述对于数据点集合中的每个数据点,计算其对应的特征向量的具体过程包括:对于数据点集合中的每个数据点,计算它与其他数据点之间的相似度,将该相似度作为其特征向量。
9.如权利要求8所述的方法,其特征在于,所述步骤S4中的高阶哈希函数使用以下公式:
Figure QLYQS_29
其中,
Figure QLYQS_31
是输入特征向量,/>
Figure QLYQS_34
是第/>
Figure QLYQS_37
个哈希函数中的第/>
Figure QLYQS_32
个向量,/>
Figure QLYQS_35
是第/>
Figure QLYQS_38
个哈希函数中的第/>
Figure QLYQS_40
个截距项,/>
Figure QLYQS_30
是哈希函数的数量,/>
Figure QLYQS_33
是第/>
Figure QLYQS_36
个哈希函数中的向量数量;/>
Figure QLYQS_39
为将特征向量映射到一个高维向量空间中的一个点。
10.如权利要求1至9之一所述的方法,其特征在于,所述步骤S5中的用户行为数据的表示使用以下公式:
Figure QLYQS_41
其中,
Figure QLYQS_42
是用户行为数据的表示,/>
Figure QLYQS_43
是步骤S2中的分类器对用户行为数据进行分类的分类结果,/>
Figure QLYQS_44
是步骤S3中的多个马尔可夫链将用户行为数据映射到状态序列的结果,/>
Figure QLYQS_45
是步骤S4中的高阶哈希函数将用户行为数据映射到高维向量空间中的结果。
CN202310554608.8A 2023-05-17 2023-05-17 一种用户数据采集方法 Active CN116304358B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310554608.8A CN116304358B (zh) 2023-05-17 2023-05-17 一种用户数据采集方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310554608.8A CN116304358B (zh) 2023-05-17 2023-05-17 一种用户数据采集方法

Publications (2)

Publication Number Publication Date
CN116304358A true CN116304358A (zh) 2023-06-23
CN116304358B CN116304358B (zh) 2023-08-08

Family

ID=86789090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310554608.8A Active CN116304358B (zh) 2023-05-17 2023-05-17 一种用户数据采集方法

Country Status (1)

Country Link
CN (1) CN116304358B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080095428A1 (en) * 2006-09-05 2008-04-24 Bruker Daltonik Gmbh Method for training of supervised prototype neural gas networks and their use in mass spectrometry
CN110363015A (zh) * 2019-07-10 2019-10-22 华东师范大学 一种基于用户属性分类的马尔可夫预取模型的构建方法
CN111324790A (zh) * 2020-02-20 2020-06-23 国网新疆电力有限公司电力科学研究院 基于支持向量机分类的负荷类型识别方法
CN114139624A (zh) * 2021-11-29 2022-03-04 北京理工大学 一种基于集成模型挖掘时间序列数据相似性信息的方法
WO2022160842A1 (zh) * 2021-01-26 2022-08-04 华中师范大学 一种基于脑电数据的学生协作状态评估方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080095428A1 (en) * 2006-09-05 2008-04-24 Bruker Daltonik Gmbh Method for training of supervised prototype neural gas networks and their use in mass spectrometry
CN110363015A (zh) * 2019-07-10 2019-10-22 华东师范大学 一种基于用户属性分类的马尔可夫预取模型的构建方法
CN111324790A (zh) * 2020-02-20 2020-06-23 国网新疆电力有限公司电力科学研究院 基于支持向量机分类的负荷类型识别方法
WO2022160842A1 (zh) * 2021-01-26 2022-08-04 华中师范大学 一种基于脑电数据的学生协作状态评估方法及系统
CN114139624A (zh) * 2021-11-29 2022-03-04 北京理工大学 一种基于集成模型挖掘时间序列数据相似性信息的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LIFENG REN 等: "Sleep Signal Data Analysis Based on SVM and Markov Process", 《2021 INTERNATIONAL CONFERENCE ON E-COMMERCE AND E-MANAGEMENT (ICECEM)》, pages 1 - 4 *
王伟: "面向能源互联网用户侧环境的负荷分解算法研究", 《CNKI博士学位论文全文库》, pages 039 - 1 *
郑天宇;吴爱华;: "基于变长马尔科夫模型的用户购物行为分析", 现代计算机(专业版), no. 21, pages 10 - 16 *

Also Published As

Publication number Publication date
CN116304358B (zh) 2023-08-08

Similar Documents

Publication Publication Date Title
Chen et al. Selecting critical features for data classification based on machine learning methods
Sarker Machine learning: Algorithms, real-world applications and research directions
Gopi et al. Classification of tweets data based on polarity using improved RBF kernel of SVM
US11556992B2 (en) System and method for machine learning architecture for enterprise capitalization
US8832015B2 (en) Fast binary rule extraction for large scale text data
CN111753087A (zh) 舆情文本分类方法、装置、计算机设备和存储介质
CN111221881B (zh) 用户特征数据合成方法、装置及电子设备
Tuarob et al. DAViS: a unified solution for data collection, analyzation, and visualization in real-time stock market prediction
Tripathy et al. AEGA: enhanced feature selection based on ANOVA and extended genetic algorithm for online customer review analysis
Gupta et al. A Comparative Theoretical and Empirical Analysis of Machine Learning Algorithms.
Kumar et al. AI-based hybrid models for predicting loan risk in the banking sector
Ramasubramanian et al. Machine learning theory and practices
CN116304358B (zh) 一种用户数据采集方法
Pratondo et al. Prediction of Payment Method in Convenience Stores Using Machine Learning
Kumbhar et al. Web mining: A Synergic approach resorting to classifications and clustering
Noroozi Data Heterogeneity and Its Implications for Fairness
Zimal et al. Customer churn prediction using machine learning
Pratondo et al. Browser Preference Prediction for Computer Users using Machine Learning
Ghosh et al. Understanding machine learning
Wang et al. Preprocessing and feature extraction methods for microfinance overdue data
Shah et al. Study of various dimensionality reduction and classification algorithms on high dimensional dataset
Suppawong et al. DAViS: a unified solution for data collection, analyzation, and visualization in real-time stock market prediction
Strathern et al. Advanced statistical analysis of large-scale web-based data
Bahaj A hybrid intelligent model for early validation of infectious diseases: An explorative study of machine learning approaches
Pattanshetti et al. Unsupervised feature selection using correlation score

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A method for collecting user data

Granted publication date: 20230808

Pledgee: Huaxia Bank Co.,Ltd. Jinan Branch

Pledgor: Jinan Anxun Technology Co.,Ltd.

Registration number: Y2024980007588