CN116861038A

CN116861038A - 一种基于多平台的消费者数据整合系统及其整合方法

Info

Publication number: CN116861038A
Application number: CN202310851693.4A
Authority: CN
Inventors: 朱志鹏; 庄伟中; 傅随金; 江海山
Original assignee: Fujian Fujing Information Technology Co ltd
Current assignee: Fujian Fujing Information Technology Co ltd
Priority date: 2023-07-12
Filing date: 2023-07-12
Publication date: 2023-10-10

Abstract

本发明涉及消费数据整合技术领域，具体涉及一种基于多平台的消费者数据整合系统及其整合方法，包括数据获取模块、身份信息标记模块、优先级遍历模块、歧义节点确定模块、歧义节点重确定模块、消费者信息整合模块、数据可视化模块。本发明，能够更精确地识别和整合消费者数据，进而准确刻画消费者的画像，更好地应用于推荐、推广等业务场景，方案也能灵活拓展至其他应用场景和技术领域，并通过特定的规则和算法进行重确定，有效解决了身份信息的歧义和冲突，这进一步提高了数据的准确性，提升了数据驱动决策的质量。

Description

一种基于多平台的消费者数据整合系统及其整合方法

技术领域

本发明涉及消费数据整合技术领域，尤其涉及一种基于多平台的消费者数据整合系统及其整合方法。

背景技术

随着互联网技术的快速发展和数据驱动决策的应用日益广泛，消费者数据的获取和处理成为了企业获取竞争优势的重要手段，消费者数据可以用于深入了解消费者的需求和习惯，从而优化产品、服务和营销策略，提高业务效果。

然而，由于消费者数据通常来自多个平台和渠道，数据的格式、质量和含义可能存在差异，这导致了数据整合的难度和复杂性，例如，同一消费者在不同平台或设备上的操作可能产生不同的身份标识，这些身份标识可能在不同程度上与消费者实际身份有关，而不同标识之间可能存在冲突，这就产生了歧义。

为了解决这些问题，有一些已有的解决方案，例如使用ETL(抽取、转换、加载)工具进行数据清洗和整合，或者使用数据仓库和数据湖等技术进行数据存储和管理，然而，这些解决方案通常需要大量的手工操作，效率低下；或者无法处理复杂的歧义和冲突，准确性不高。

因此，我们需要一种能够自动、高效、准确地获取和整合多平台消费者数据的系统和方法，这种系统和方法需要能够处理不同格式和质量的数据，解决身份信息的歧义和冲突，生成完整、一致、准确的消费者画像，从而支持各种数据分析和应用场景。

发明内容

基于上述目的，本发明提供了一种基于多平台的消费者数据整合系统及其整合方法。

一种基于多平台的消费者数据整合系统，包括数据获取模块、身份信息标记模块、优先级遍历模块、歧义节点确定模块、歧义节点重确定模块、消费者信息整合模块、数据可视化模块，其中，

所述数据获取模块，用于获取跨平台和多渠道的业务数据；

所述身份信息标记模块，通过预设的消费者身份信息规则，对业务数据中的身份信息字段进行标记，得到第一身份信息；

所述优先级遍历模块，根据身份信息规则中的优先级对第一身份信息进行遍历，根据遍历结果构建身份信息连通图；

所述歧义节点确定模块，根据第一身份信息的名称以及质量，确定信息连通图中的歧义节点；

所述歧义节点重确定模块，用于重新确定歧义节点的第二身份信息归属，并更新信息连通图；

所述消费者信息整合模块，将更新后的信息连通图进行消费者属性信息和用户行为数据整合；

所述数据可视化模块，用于对整合后的消费者信息进行可视化展示。

进一步的，所述数据获取模块基于爬虫技术，具体为：

种子URL：爬虫程序首先需要一组种子URL作为开始爬取的入口，种子URL为一到多个，由用户手动输入或者从数据库中提取；

URL队列：爬虫程序将种子URL放入URL队列；

下载网页：爬虫从URL队列中取出URL，进而通过HTTP或者HTTPS协议下载这个URL对应的网页内容；

解析网页：下载后的内容为是HTML，爬虫解析HTML，提取出有用的信息，该信息为用户需要的数据或其他网页的URL链接；

数据存储：爬虫将提取的有用信息存储到数据库或者写入到文件；

URL去重：爬虫将新提取出的URL进行去重处理，只保留还未爬取过的URL，以防止爬取重复的网页，；

重复流程：重复第3步到第6步，直到URL队列为空，或达到用户设定的爬取深度或者数量。

进一步的，所述身份信息标记模块基于自然语言处理中的规则匹配技术，具体为：

定义规则：首先，定义一套规则，用于匹配我们希望提取的信息；

应用规则：然后，将定义的规则应用到数据中，规则匹配通过正则表达式或者专门的规则引擎实现；

标记数据：规则匹配完成后，得到符合规则的数据，然后将这些数据进行标记；

更新规则：规则匹配的过程可能需要进行多次迭代。需要根据实际的需求和数据的特点，更新和优化规则，以提高匹配的准确性和覆盖率。

进一步的，所述优先级遍历模块中采用图遍历算法，具体为：在身份信息连通图中，将各个身份信息视为图中的节点，节点间的连通关系视为图中的边，每个节点可以拥有一个或多个与之关联的标签，用于表示用户的不同属性，边的权重可能代表身份信息间的关联强度或者优先级；

图遍历的目标是找到一个遍历序列，使得遍历过程中访问到的节点(身份信息)满足一定的优先级要求，先定义一个函数f，用于根据节点的属性和关联关系计算节点的优先级，该函数依赖于多个因素，包括节点的标签数量、节点的连接数、节点与特定节点的连通性，具体算法如下：

f(n)＝w1*T(n)+w2*C(n)+w3*P(n)，

其中：

n表示一个节点；

T(n)表示节点n的标签数量；

C(n)表示节点n的连接数，即连通的其他节点数量；

P(n)表示节点n与特定节点的连通性，是一个布尔值或一个连通路径的长度或强度；

w1、w2、w3是权重系数，用于调节各个因素在优先级计算中的重要性。

进一步的，所述歧义节点确定模块用于找出存在歧义的节点，该节点是在身份信息连通图中无法准确确定身份的节点，歧义节点的确定方法包括通过比较不同身份标识之间的一致性或通过分析身份信息的来源和上下文信息来判断；

所述歧义节点重确定模块在确定了歧义节点之后，进行重确定，使每个节点都能准确地对应到一个消费者，该过程涉及到数据清洗、消歧步骤。

进一步的，所述歧义节点确定模块和歧义节点重确定模块使用贝叶斯网络技术进行决策。

进一步的，所述数据可视化模块具体功能包括：

展示消费者属性信息：系统将消费者的各种属性信息，该信息包括性别、年龄、地理位置、消费习惯，以图表的形式展示出来。

展示用户行为数据：系统可以将消费者的行为数据，数据包括浏览历史、购物车、订单、评价，以图表的形式展示出来。

展示数据关联性：系统可将消费者的属性信息和行为数据的关联性以图表的形式展示出来。

交互式操作：为了提高用户体验，数据可视化模块提供交互式的操作。

一种基于多平台的消费者数据整合方法，包括以下步骤：

步骤一：获取跨平台和多渠道的业务数据；

步骤二：通过预设的消费者身份信息规则，对业务数据中的身份信息字段进行标记，得到第一身份信息；

步骤三：根据身份信息规则中的优先级对第一身份信息进行遍历，根据遍历结果构建身份信息连通图；

步骤四：根据第一身份信息的名称以及质量，确定信息连通图中的歧义节点；

步骤五：重新确定歧义节点的第二身份信息归属，并更新信息连通图；

步骤六：将更新后的信息连通图进行消费者属性信息和用户行为数据整合，并进行可视化展示。

进一步的，所述可视化展示方式包括折线图、柱状图、饼图、散点图、地理信息图。

本发明的有益效果：

本发明，能够更精确地识别和整合消费者数据，进而准确刻画消费者的画像，更好地应用于推荐、推广等业务场景，方案也能灵活拓展至其他应用场景和技术领域。

本发明，能够自动从多个平台和渠道获取消费者数据，并通过预设的规则和算法进行高效的数据清洗和整合，这不仅大大节省了人力和时间成本，也提高了数据的一致性和准确性，通过对业务数据中的身份信息字段进行标记和整合，，还能识别出存在歧义的身份信息，并通过特定的规则和算法进行重确定，有效解决了身份信息的歧义和冲突，这进一步提高了数据的准确性，提升了数据驱动决策的质量。

本发明，将复杂的数据转换为易于理解的图形，帮助用户更好地理解和解释数据，不仅提高了数据分析的效率，也有助于用户发现数据中的模式、趋势和异常，做出更好的决策。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的系统逻辑框图；

图2为本发明实施例的整合方法流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，对本发明进一步详细说明。

需要说明的是，除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

如图1-图2所示，一种基于多平台的消费者数据整合方法，包括数据获取模块、身份信息标记模块、优先级遍历模块、歧义节点确定模块、歧义节点重确定模块、消费者信息整合模块、数据可视化模块，其中，

数据获取模块，用于获取跨平台和多渠道的业务数据；

身份信息标记模块，通过预设的消费者身份信息规则，对业务数据中的身份信息字段进行标记，得到第一身份信息；

优先级遍历模块，根据身份信息规则中的优先级对第一身份信息进行遍历，根据遍历结果构建身份信息连通图；

歧义节点确定模块，根据第一身份信息的名称以及质量，确定信息连通图中的歧义节点；

歧义节点重确定模块，用于重新确定歧义节点的第二身份信息归属，并更新信息连通图；

消费者信息整合模块，将更新后的信息连通图进行消费者属性信息和用户行为数据整合；

数据可视化模块，用于对整合后的消费者信息进行可视化展示。

数据获取模块基于爬虫技术，具体为：

URL队列：爬虫程序将种子URL放入URL队列；

爬虫技术在设计和实现时需要考虑网站的robots协议，避免过度爬取对网站服务器产生压力，同时需要处理各种网络异常和网页编码问题。更高级的爬虫可能需要处理网页中的JavaScript、Cookie、Session等，或者需要模拟用户登录、填表、翻页等动作。

身份信息标记模块基于自然语言处理中的规则匹配技术，具体为：

定义规则：首先，定义一套规则，用于匹配我们希望提取的信息，例如，如果我们想提取一个身份信息字段中的邮箱地址，我们可能会定义一个规则，如“任意字符@任意字符.任意字符”，用于匹配邮箱的一般格式；

应用规则：然后，将定义的规则应用到数据中，规则匹配通过正则表达式或者专门的规则引擎实现，正则表达式是一种用来匹配字符串的强大工具，可以用来匹配、提取、替换符合特定模式的字符串。规则引擎则是一个更复杂的系统，可以处理更复杂的规则和逻辑；

标记数据：规则匹配完成后，得到符合规则的数据，然后将这些数据进行标记，标记的方式可以多种多样，例如，我们可以为符合规则的数据添加一个标签，或者将它们存入一个特定的字段或数据结构中；

更新规则：规则匹配的过程可能需要进行多次迭代。需要根据实际的需求和数据的特点，更新和优化规则，以提高匹配的准确性和覆盖率；

在身份信息标记模块中，规则匹配可以帮助我们快速准确地提取和标记出身份信息，如消费者ID、设备ID、IP地址、浏览器信息等，为后续的数据分析和处理提供便利。

图遍历算法是计算机科学中的一类算法，用于系统地访问图中的所有节点。在优先级遍历模块中，我们可能需要用到图遍历算法来按照一定的优先级顺序遍历所有的身份信息。常用的图遍历算法包括深度优先搜索(DFS)和广度优先搜索(BFS)等。

深度优先搜索(DFS)：深度优先搜索是一种用于遍历或搜索树或图的算法。这个算法会尽可能深地搜索图的分支。当节点v的所在边都己被探寻过，搜索将回溯到发现节点v的那条边的起始节点。这一过程一直进行到已发现从源节点可达的所有节点为止。如果还存在未被发现的节点，则选择其中一个作为源节点并重复以上过程，整个进程反复进行直到所有节点都被访问为止。

广度优先搜索(BFS)：广度优先搜索是一种广义层次遍历算法。从图的某一节点开始，访问其所有相邻的节点，然后对每个相邻节点，再访问它们相邻的未被访问过的节点，以此类推，直到所有节点都被访问过。

在优先级遍历模块中，我们可能需要根据具体需求选择适当的图遍历算法。例如，如果我们想要优先处理与当前节点最近的身份信息，则可能会选择广度优先搜索；如果我们想要优先处理某个具有高优先级路径的身份信息，则可能会选择深度优先搜索。

在具体的实现中，我们可能还需要结合其他数据结构，如队列、堆或优先队列，以实现特定的优先级处理逻辑。例如，我们可以使用一个优先队列来存储待处理的身份信息，队列中的元素按照其优先级进行排序，每次从队列中取出优先级最高的元素进行处理，优先级遍历模块中采用图遍历算法，具体为：在身份信息连通图中，将各个身份信息视为图中的节点，节点间的连通关系视为图中的边，每个节点可以拥有一个或多个与之关联的标签，用于表示用户的不同属性，边的权重可能代表身份信息间的关联强度或者优先级；

f(n)＝w1*T(n)+w2*C(n)+w3*P(n)，

其中：

n表示一个节点；

T(n)表示节点n的标签数量；

C(n)表示节点n的连接数，即连通的其他节点数量；

在进行图遍历时，我们可以使用优先队列来存储待处理的节点，队列中的元素按照其优先级进行排序。每次从队列中取出优先级最高的元素进行处理，即选择优先级函数f值最大的节点进行遍历。这样，我们就可以按照优先级的顺序遍历所有的节点，从而满足方案中的需求。

歧义节点确定模块用于找出存在歧义的节点，该节点是在身份信息连通图中无法准确确定身份的节点，例如，同一消费者在不同平台或设备上的操作可能产生不同的身份标识，这些身份标识可能在不同程度上与消费者实际身份有关，而不同标识之间可能存在冲突，这就导致了歧义，歧义节点的确定方法包括通过比较不同身份标识之间的一致性或通过分析身份信息的来源和上下文信息来判断；

歧义节点重确定模块在确定了歧义节点之后，进行重确定，使每个节点都能准确地对应到一个消费者，该过程涉及到数据清洗、消歧步骤。

歧义节点的重确定通常是一个迭代过程，需要反复地更新身份信息并检查是否还存在歧义。在这个过程中，可能需要引入一些额外的信息或者规则，例如，可以使用消费者的行为数据、交易数据或者其他来源的数据来帮助消歧。

具体的重确定方法包括：

基于规则的方法：例如，设定某些类型的身份标识优先级高于其他类型，或者根据时间近远来确定优先级等。

基于统计的方法：例如，选择出现次数最多的身份标识作为真实身份。

基于机器学习的方法：例如，使用分类或聚类算法来对身份标识进行预测或分组。

在实际的系统设计和实现中，这两个模块可能需要根据实际的需求和数据特性进行定制和优化，以提高数据整合的准确性和效率。

歧义节点确定模块和歧义节点重确定模块使用贝叶斯网络技术进行决策。

数据可视化模块具体功能包括：

展示消费者属性信息：系统将消费者的各种属性信息，该信息包括性别、年龄、地理位置、消费习惯，以图表的形式展示出来。例如，可以使用柱状图或饼图来展示消费者的性别分布，使用地图来展示消费者的地理位置分布，使用线图或折线图来展示消费者的消费习惯随时间的变化等。

展示用户行为数据：系统可以将消费者的行为数据，数据包括浏览历史、购物车、订单、评价，以图表的形式展示出来。例如，可以使用热力图来展示消费者在不同时间段的活跃程度，使用路径图来展示消费者的浏览路径，使用散点图来展示消费者的购买行为等。

展示数据关联性：系统可将消费者的属性信息和行为数据的关联性以图表的形式展示出来。例如，可以使用相关图来展示消费者的某种属性(如年龄)与其行为(如购买某种商品的概率)的关联性，使用网络图来展示消费者之间的关联性等。

交互式操作：为了提高用户体验，数据可视化模块提供交互式的操作。例如，用户可以通过点击、拖动、缩放等操作来查看和探索数据，可以通过筛选、排序、高亮等操作来关注感兴趣的数据，也可以通过设置参数、修改样式等操作来定制图表的展示效果。

在设计和实现数据可视化模块时，需要考虑多种因素，如数据的特性、用户的需求、视觉的美学等。此外，还需要确保数据的真实性和准确性，避免误导用户。

一种基于多平台的消费者数据整合方法，包括以下步骤：

步骤一：获取跨平台和多渠道的业务数据；

可视化展示方式包括折线图、柱状图、饼图、散点图、地理信息图。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本发明的范围被限于这些例子；在本发明的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本发明的不同方面的许多其它变化，为了简明它们没有在细节中提供。

本发明旨在涵盖落入权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多平台的消费者数据整合系统，其特征在于，包括数据获取模块、身份信息标记模块、优先级遍历模块、歧义节点确定模块、歧义节点重确定模块、消费者信息整合模块、数据可视化模块，其中，

所述数据获取模块，用于获取跨平台和多渠道的业务数据；

2.根据权利要求1所述的一种基于多平台的消费者数据整合系统，其特征在于，所述数据获取模块基于爬虫技术，具体为：

URL队列：爬虫程序将种子URL放入URL队列；

3.根据权利要求1所述的一种基于多平台的消费者数据整合系统，其特征在于，所述身份信息标记模块基于自然语言处理中的规则匹配技术，具体为：

4.根据权利要求1所述的一种基于多平台的消费者数据整合系统，其特征在于，所述优先级遍历模块中采用图遍历算法，具体为：在身份信息连通图中，将各个身份信息视为图中的节点，节点间的连通关系视为图中的边，每个节点可以拥有一个或多个与之关联的标签，用于表示用户的不同属性，边的权重可能代表身份信息间的关联强度或者优先级；

f(n)＝w1*T(n)+w2*C(n)+w3*P(n)，

其中：

n表示一个节点；

T(n)表示节点n的标签数量；

C(n)表示节点n的连接数，即连通的其他节点数量；

5.根据权利要求1所述的一种基于多平台的消费者数据整合系统，其特征在于，所述歧义节点确定模块用于找出存在歧义的节点，该节点是在身份信息连通图中无法准确确定身份的节点，歧义节点的确定方法包括通过比较不同身份标识之间的一致性或通过分析身份信息的来源和上下文信息来判断；

6.根据权利要求5所述的一种基于多平台的消费者数据整合系统，其特征在于，所述歧义节点确定模块和歧义节点重确定模块使用贝叶斯网络技术进行决策。

7.根据权利要求1所述的一种基于多平台的消费者数据整合系统，其特征在于，所述数据可视化模块具体功能包括：

8.根据权利要求1所述的一种基于多平台的消费者数据整合方法，其特征在于，包括以下步骤：

步骤一：获取跨平台和多渠道的业务数据；

9.根据权利要求8所述的一种基于多平台的消费者数据整合方法，其特征在于，所述可视化展示方式包括折线图、柱状图、饼图、散点图、地理信息图。