CN116304358A

CN116304358A - 一种用户数据采集方法

Info

Publication number: CN116304358A
Application number: CN202310554608.8A
Authority: CN
Inventors: 王晓宇; 贾琦; 乜潇莹
Original assignee: Jinan Anxun Technology Co ltd
Current assignee: Jinan Anxun Technology Co ltd
Priority date: 2023-05-17
Filing date: 2023-05-17
Publication date: 2023-06-23
Anticipated expiration: 2043-05-17
Also published as: CN116304358B

Abstract

本发明属于数据采集技术领域，具体涉及一种用户数据采集方法，包括以下步骤：S1、将用户行为数据转化为数据点集合；S2、使用支持向量机对数据点进行分类；S3、定义多个马尔可夫链将数据点映射到状态序列；S4、使用高阶哈希函数将数据点映射到高维向量空间；S5、将分类器、马尔可夫链和高阶哈希函数的结果合并表示用户行为数据。本发明可以高效地采集用户行为数据，实现跨平台数据的统一性，提高数据的安全性，同时也为企业实现个性化推荐和精准营销提供了重要的技术支持。

Description

一种用户数据采集方法

技术领域

本发明属于数据采集技术领域，具体涉及一种用户数据采集方法。

背景技术

随着移动互联网的普及，用户行为数据逐渐成为了互联网企业竞争的重要资源，这些数据可以帮助企业了解用户需求，精准推荐产品和服务，提高用户黏性和留存率。然而，如何高效地采集用户行为数据成为了互联网企业所面临的共同问题。

目前已经存在的技术主要包括两种：第一种是通过网站、APP等渠道进行用户行为数据的收集和分析，第二种是通过第三方工具对网站、APP等渠道进行监控和分析。

第一种方式的优点是可以通过自己的渠道收集数据，并根据业务需求自由调整数据采集的方式和范围。但是这种方式也存在一些缺点，比如用户行为数据的采集效率低下、数据不够全面、难以解决跨平台数据统一性等问题。

第二种方式通过第三方工具对用户行为数据进行监控和分析，相比第一种方式，能够更加全面和深入地了解用户行为。但是这种方式也存在一些问题，比如需要在网站或APP中添加第三方代码，可能会影响网站或APP的性能和用户体验；同时，由于第三方工具需要在网站或APP中插入代码，存在安全隐患。

因此，需要一种高效、安全、可靠的用户行为数据采集方法和系统，以解决用户行为数据采集中存在的各种问题。该方法和系统需要能够在不影响用户使用体验的情况下，快速、全面、准确地采集用户行为数据，并实现数据的实时处理和分析。

发明内容

本发明的主要目的在于提供一种用户数据采集方法，本发明可以高效地采集用户行为数据，实现跨平台数据的统一性，提高数据的安全性，同时也为企业实现个性化推荐和精准营销提供了重要的技术支持。

为解决上述技术问题，本发明提供一种用户数据采集方法，所述方法包括：

步骤S1：选择用于收集用户数据的数据点集合，其中数据点集合包括多个数据点，每个数据点由一组数据特征和对应的标签表示；

步骤S2：通过改进的支持向量机，训练一个分类器，该分类器对数据点集合中的数据点进行分类，并将分类结果作为用户行为数据的分类表示；

步骤S3：基于多个马尔可夫链，将数据点集合映射到一组状态序列，其中每个状态表示一个数据点集合中的数据点，该组状态序列用于表示用户行为数据的序列特征；

步骤S4：使用一种高阶哈希函数将数据点集合中的每个数据点映射到一个高维向量空间中的一个点，每个点用于表示用户行为数据的隐含特征；

步骤S5：将步骤S2中训练的分类器、步骤S3中生成的状态序列和步骤S4中生成的高维向量空间中的点组合起来，形成采集到的用户行为数据的表示，完成本次用户数据采集。

进一步的，所述数据点集合为用户行为数据的集合，为一组用户行为数据；所述数据点为数据点集合中的一个单独的数据实例，每个数据点代表了用户在某个时间点上的一次用户行为数据。

进一步的，所述步骤S2具体包括以下过程：准备用于训练分类器的数据点集合；数据点集合中的每个数据点都有一组数据特征和对应的标签；数据特征是用于描述数据点的属性，标签则表示数据点的类别；对于每个数据点，从原始数据中提取出一组数据特征；使用改进的支持向量机，对准备好的数据集进行训练；在训练过程中，分类器会学习如何将数据特征与标签相关联，并将这个关联关系用于将数据点分类，作为分类结果；最后将分类结果作为用户行为数据的分类表示。

进一步的，所述步骤S2中改进的支持向量机使用以下公式表示：

；

满足以下条件：

；

其中，

是分类器的权重向量，

是松弛变量，

是正则化参数，

是特征映射函数，

是数据点的数据特征，

是数据点的标签；

为数据点的个数。

进一步的，所述步骤S3具体包括以下过程：将数据点集合中的数据点根据时间顺序排列，形成一个时间序列；定义多个马尔可夫链，每个马尔可夫链包含一组状态，表示数据点集合中的数据点在特定时间窗口内的状态；对于每个时间窗口内的数据点集合，使用步骤S2中训练得到的分类器对数据点进行分类，并将分类结果作为该时间窗口的状态；对于时间序列中的每个时间窗口，将得到的状态组成一个状态序列，得到一个马尔可夫链的状态序列；对于多个马尔可夫链，将它们的状态序列合并，形成一个用于表示用户行为数据的序列特征的状态序列。

进一步的，所述多个马尔可夫链的转移矩阵使用以下公式进行定义：

；

其中，

表示在时间步

时，数据点

的隐含状态，

表示数据点

的观察状态，

表示数据点

之外的所有数据点的隐含状态；

表示在当前状态下的特征函数，

，

，

是学习的权重参数，用于权衡不同特征函数的重要性；

表示对数据点

的隐含状态

进行求和；公式的分子表示在当前状态下，转移到状态

的概率，分母表示在当前状态下，所有可能状态的概率之和，用于归一化，保证转移概率的和为 1。

进一步的，所述步骤S4具体包括以下过程：对于数据点集合中的每个数据点，计算其对应的特征向量，得到一个由特征向量组成的矩阵，记为

；高阶哈希函数，将

中的每个特征向量映射到一个高维向量空间中的一个点，从而得到每个特征向量的高维向量；将得到的高维向量组成一个矩阵

，其中每个向量用于表示用户行为数据的隐含特征。

进一步的，所述对于数据点集合中的每个数据点，计算其对应的特征向量的具体过程包括：对于数据点集合中的每个数据点，计算它与其他数据点之间的相似度，将该相似度作为其特征向量。

进一步的，所述步骤S4中的高阶哈希函数使用以下公式：

；

其中，

是输入特征向量，

是第

个哈希函数中的第

个向量，

是第

个哈希函数中的第

个截距项，

是哈希函数的数量，

是第

个哈希函数中的向量数量；

为将特征向量映射到一个高维向量空间中的一个点。

进一步的，所述步骤S5中的用户行为数据的表示使用以下公式：

；

其中，

是用户行为数据的表示，

是步骤S2中的分类器对用户行为数据进行分类的分类结果，

是步骤S3中的多个马尔可夫链将用户行为数据映射到状态序列的结果，

是步骤S4中的高阶哈希函数将用户行为数据映射到高维向量空间中的结果。

本发明的一种用户数据采集方法，具有以下有益效果：

1.提高用户数据采集的效率和准确性：采集用户数据一直是数据分析和数据科学领域中的重要问题，而本发明提出的方法可以高效地采集用户数据并提高数据的准确性。具体来说，该方法利用支持向量机分类器对数据点进行分类，将分类结果作为用户行为数据的分类表示，同时利用多个马尔可夫链将数据点集合映射到一组状态序列，将数据点的时序信息加入到用户行为数据的表示中，从而可以更加准确地描述用户行为。

2.实现跨平台数据统一性：现在的用户数据来源多种多样，如社交媒体、在线购物平台、移动应用程序等，这些数据往往存储在不同的平台和系统中，数据格式和数据结构也各不相同。本发明提出的高阶哈希函数可以将数据点集合中的每个数据点映射到一个高维向量空间中的一个点，每个点用于表示用户行为数据的隐含特征，从而实现跨平台数据的统一性，方便数据的处理和分析。

3.提高数据采集的安全性：随着用户数据的不断增加和泄露事件的频繁发生，数据安全性问题越来越引起人们的关注。本发明提出的方法使用高阶哈希函数将数据点集合中的每个数据点映射到一个高维向量空间中的一个点，每个点用于表示用户行为数据的隐含特征，这样可以避免将用户原始数据暴露在公共网络中，提高数据的安全性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种用户数据采集方法的方法流程示意图。

具体实施方式

下面结合附图及本发明的实施例对本发明的方法作进一步详细的说明。

实施例1

一种用户数据采集方法，所述方法包括：

其中，步骤S5将前面各个步骤生成的不同的数据表示方式结合起来，形成一个全面、多维度的用户行为数据表示，从而更全面、更准确地反映用户的行为特征。具体而言，步骤S2中训练的分类器能够对用户行为数据进行分类，从而提取出用户行为的类别信息；步骤S3中生成的状态序列能够表达用户行为数据的时序特征，例如某个用户的行为是否呈现出周期性或趋势性；步骤S4中生成的高维向量能够表达用户行为数据的隐含特征，例如某些用户行为的关联性等。将这些不同维度的数据表示方式结合起来，可以更全面、更准确地刻画用户的行为特征，从而为后续的用户行为分析和推荐提供更有力的支持。

具体地，所述数据点集合为用户行为数据的集合，为一组用户行为数据；所述数据点为数据点集合中的一个单独的数据实例，每个数据点代表了用户在某个时间点上的一次用户行为数据。

其中，用户行为数据包括以下一项或多项：网页浏览记录、搜索记录、购买行为、社交行为、应用使用记录和位置数据；

网页浏览记录包括：访问网页、停留时间和浏览路径；搜索记录包括：搜索关键词、搜索结果点击率和搜索时间；购买行为包括：购买商品、购买时间和购买价格；社交行为包括：用户在社交媒体上的互动、朋友关系、发布内容等；应用使用记录包括：用户使用哪些应用程序、使用时间、使用频率等；位置数据包括：用户在哪些位置停留、停留时间、移动轨迹等。

具体地，所述步骤S2具体包括以下过程：对于每个数据点，从原始数据中提取出一组数据特征；使用改进的支持向量机，对准备好的数据集进行训练；在训练过程中，分类器会学习如何将数据特征与标签相关联，并将这个关联关系用于将数据点分类，作为分类结果；最后将分类结果作为用户行为数据的分类表示；数据点集合中的每个数据点都有一组数据特征和对应的标签；数据特征是用于描述数据点的属性，标签则表示数据点的类别。

具体地，所述步骤S2中改进的支持向量机使用以下公式表示：

；

满足以下条件：

；

其中，

是分类器的权重向量，

是松弛变量，

是正则化参数，

是特征映射函数，

是数据点的数据特征，

是数据点的标签；

为数据点的个数。

其中，松弛变量是一种容错机制，允许一些数据点被错误地分类或者位于超平面的错误一侧。具体来说，在线性可分的情况下，改进的支持向量机的目标是找到一个可以将不同类别的数据分开的超平面，使得距离超平面最近的一些数据点（即支持向量）到超平面的距离最大化，而松弛变量的引入则是为了在非线性可分的情况下，尽可能地找到一个分离平面，同时最小化错误分类的点数和错误分类的严重程度。

特征映射函数

的表达式可以有多种形式，其中一个比较常用的是基于核函数的映射。具体来说，给定输入向量

和另一个向量

，核函数将它们映射到一个高维特征空间，然后在这个高维空间中计算它们的内积，即

，其中

是核函数，

是特征映射函数。常见的核函数包括线性核、多项式核、高斯核等。在实际应用中，选择适合数据特征的核函数可以显著提高分类器的性能。

具体地，所述步骤S3具体包括以下过程：将数据点集合中的数据点根据时间顺序排列，形成一个时间序列；定义多个马尔可夫链，每个马尔可夫链包含一组状态，表示数据点集合中的数据点在特定时间窗口内的状态；对于每个时间窗口内的数据点集合，使用步骤S2中训练得到的分类器对数据点进行分类，并将分类结果作为该时间窗口的状态；对于时间序列中的每个时间窗口，将得到的状态组成一个状态序列，得到一个马尔可夫链的状态序列；对于多个马尔可夫链，将它们的状态序列合并，形成一个用于表示用户行为数据的序列特征的状态序列。

其中，步骤S3的具体过程是将数据点集合按照时间顺序排列，形成一个时间序列。然后，可以将每个时间窗口内的数据点集合使用步骤S2中训练好的分类器进行分类，并将分类结果作为该时间窗口的状态。为了表示数据点集合在特定时间窗口内的状态，定义了多个马尔可夫链，每个马尔可夫链包含一组状态。对于时间序列中的每个时间窗口，将得到的状态组成一个状态序列，得到一个马尔可夫链的状态序列。最后，将多个马尔可夫链的状态序列合并，形成一个用于表示用户行为数据的序列特征的状态序列。

马尔可夫链是一种表示随机过程的数学模型，它满足马尔可夫性质，即当前状态只与前一状态有关，与之前的所有状态无关。在步骤S3中，使用多个马尔可夫链来表示数据点集合的状态。这样可以将数据点集合在时间上分解成多个小的时间窗口，在每个时间窗口内使用分类器将数据点进行分类，并将分类结果作为该时间窗口的状态。因此，马尔可夫链能够较好地表示用户行为的连续性和演变规律。

具体地，所述多个马尔可夫链的转移矩阵使用以下公式进行定义：

；

其中，

表示在时间步

时，数据点

的隐含状态，

表示数据点

的观察状态，

表示数据点

之外的所有数据点的隐含状态；

表示在当前状态下的特征函数，

，

，

是学习的权重参数，用于权衡不同特征函数的重要性；

表示对数据点

的隐含状态

进行求和；公式的分子表示在当前状态下，转移到状态

具体地，所述步骤S4具体包括以下过程：对于数据点集合中的每个数据点，计算其对应的特征向量，得到一个由特征向量组成的矩阵，记为

；高阶哈希函数，将

，其中每个向量用于表示用户行为数据的隐含特征。

在步骤S4中，主要包括两个过程：特征向量计算和高维向量映射。

首先，对于数据点集合中的每个数据点，需要计算其对应的特征向量。这个特征向量通常由该数据点的多个属性组成，每个属性代表该数据点的某种特征。例如，在用户行为数据的场景下，一个数据点可能包含用户的年龄、性别、地理位置、访问时间等属性，这些属性可以组成一个特征向量。

接下来，使用高阶哈希函数将特征向量映射到一个高维向量空间中的一个点。高阶哈希函数是一种非线性映射函数，可以将低维特征向量映射到高维向量空间中，从而增加特征向量的维度。这个高维向量通常包含了特征向量的多种组合和变换，更加丰富和全面地表达了用户行为数据的隐含特征。

最终，将得到的高维向量组成一个矩阵Y，其中每个向量用于表示用户行为数据的隐含特征。这个矩阵Y可以作为用户行为数据的另一种表示方式，与步骤S3中生成的状态序列结合使用，更全面地描述和理解用户的行为模式。

具体地，所述对于数据点集合中的每个数据点，计算其对应的特征向量的具体过程包括：对于数据点集合中的每个数据点，计算它与其他数据点之间的相似度，将该相似度作为其特征向量。

其中，相似度被视为数据点的特征，因为它包含了该数据点与其他数据点之间的关系。在许多机器学习应用中，相似度或距离度量通常被用作特征，因为它们可以很好地描述数据点之间的相似性和差异性，同时避免了对原始数据进行复杂处理的需求。在本专利中，使用相似度作为特征向量的依据是为了捕捉用户行为数据的相关性，并在后续的处理中提供更多的信息。

具体地，所述步骤S4中的高阶哈希函数使用以下公式：

；

其中，

是输入特征向量，

是第

个哈希函数中的第

个向量，

是第

个哈希函数中的第

个截距项，

是哈希函数的数量，

是第

个哈希函数中的向量数量；

为将特征向量映射到一个高维向量空间中的一个点。

其中，高阶哈希函数的公式描述了一个高阶哈希函数，它将输入特征向量

映射到一个高维向量空间中的一个点。具体而言，该函数使用

个哈希函数，每个哈希函数中包含

个向量和对应的截距项。对于输入向量

，该函数将其与每个哈希函数中的向量进行点积操作并加上对应的截距项，然后将这些值取乘积并求和，最终得到一个标量值，表示

在高维向量空间中的位置。由于使用多个哈希函数，这种映射能够更好地保持原始向量之间的距离关系，从而更好地保留输入向量的结构信息。

具体地，所述步骤S5中的用户行为数据的表示使用以下公式：

；

其中，

是用户行为数据的表示，

是步骤S2中的分类器对用户行为数据进行分类的分类结果，

其中，在步骤S5中，用户行为数据的表示使用了步骤S2、S3和S4中得到的结果。

表示步骤S2中的分类器对用户行为数据进行分类的分类结果，可以看作是一个二元变量，表示用户行为的类别；

表示步骤S3中的多个马尔可夫链将用户行为数据映射到状态序列的结果，可以看作是一个序列变量，表示用户行为的时序性和演化过程；

表示步骤S4中的高阶哈希函数将用户行为数据映射到高维向量空间中的结果，可以看作是一个向量变量，表示用户行为的特征。将这三种不同类型的结果结合起来，得到了一个综合的用户行为数据表示，可以更好地反映用户的行为特征和行为演化过程。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的一种用户数据采集方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种用户数据采集方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述数据点集合为用户行为数据的集合，为一组用户行为数据；所述数据点为数据点集合中的一个单独的数据实例，每个数据点代表了用户在某个时间点上的一次用户行为数据。

3.如权利要求2所述的方法，其特征在于，所述步骤S2具体包括以下过程：对于每个数据点，从原始数据中提取出一组数据特征；使用改进的支持向量机，对准备好的数据集进行训练；在训练过程中，分类器会学习如何将数据特征与标签相关联，并将这个关联关系用于将数据点分类，作为分类结果；最后将分类结果作为用户行为数据的分类表示；数据点集合中的每个数据点都有一组数据特征和对应的标签；数据特征是用于描述数据点的属性，标签则表示数据点的类别。

4.如权利要求3所述的方法，其特征在于，所述步骤S2中改进的支持向量机使用以下公式表示：

；

满足以下条件：

；

其中，

是分类器的权重向量，/>

是松弛变量，/>

是正则化参数，/>

是特征映射函数，

是数据点的数据特征，/>

是数据点的标签；/>

为数据点的个数。

5.如权利要求2所述的方法，其特征在于，所述步骤S3具体包括以下过程：将数据点集合中的数据点根据时间顺序排列，形成一个时间序列；定义多个马尔可夫链，每个马尔可夫链包含一组状态，表示数据点集合中的数据点在特定时间窗口内的状态；对于每个时间窗口内的数据点集合，使用步骤S2中训练得到的分类器对数据点进行分类，并将分类结果作为该时间窗口的状态；对于时间序列中的每个时间窗口，将得到的状态组成一个状态序列，得到一个马尔可夫链的状态序列；对于多个马尔可夫链，将它们的状态序列合并，形成一个用于表示用户行为数据的序列特征的状态序列。

6.如权利要求5所述的方法，其特征在于，所述多个马尔可夫链的转移矩阵使用以下公式进行定义：