CN113792202A

CN113792202A - 一种用户分类的筛选方法

Info

Publication number: CN113792202A
Application number: CN202111015189.8A
Authority: CN
Inventors: 丁建伟; 郑雅琦; 李欣泽; 王泽珺; 黄静; 陈周国
Original assignee: Shenzhen Wanglian Anrui Network Technology Co ltd; CETC 30 Research Institute
Current assignee: Shenzhen Wanglian Anrui Network Technology Co ltd; CETC 30 Research Institute
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2021-12-14
Anticipated expiration: 2041-08-31
Also published as: CN113792202B

Abstract

本发明提供一种用户分类的筛选方法，包括用户历史数据的处理步骤和用户新增数据的处理步骤；用户历史数据的处理步骤包括：获取用户历史数据；根据预设的分类规则引擎对用户历史数据组成的样本集群按照关键进行分类得到多个样本类群；用户新增数据的处理步骤包括：对每个样本类群的用户历史数据进行量化，得到每一个样本类群的类群特征信息，将每个样本类群的关键词和类群特征信息作为结构化数据；获取用户新增数据并提取用户新增数据的结构化数据，通过将用户新增数据的结构化数据与分类规则引擎中每一个样本类群的结构化数据进行匹配进行分类。本发明通过设置分类规则引擎有效合理地将全量用户进行分类，用户信息管理更加清晰高效，且使用方便。

Description

一种用户分类的筛选方法

技术领域

本发明涉及互联网中数据处理技术领域，具体而言，涉及一种用户分类的筛选方法。

背景技术

随着互联网web的信息呈现爆炸式的增长，给互联网企业维护自己用户信息增加了很大难度，对于数据库底层数据的保存，大部分企业只是进行无分类、无差异化的储存，这样简单的存储方式已经无法满足现今企业对数据的采集、整理、分析的需求，并且会耗费大量的时间在数据整理、清洗上，极大地影响工作效率。

发明内容

本发明旨在提供一种用户分类的筛选方法，以解决上述技术问题。

本发明提供的一种用户分类的筛选方法，包括用户历史数据的处理步骤和用户新增数据的处理步骤；

所述用户历史数据的处理步骤包括：

步骤11，获取用户历史数据；

步骤12，提取用户历史数据的关键词，并根据预设的分类规则引擎对用户历史数据组成的样本集群按照关键进行分类得到多个样本类群；

所述用户新增数据的处理步骤包括：

步骤21，根据预设的分类规则引擎对每个样本类群的用户历史数据进行量化，得到每一个样本类群的类群特征信息，将每个样本类群的关键词和类群特征信息作为结构化数据；

步骤22，获取用户新增数据并提取用户新增数据的结构化数据，将用户新增数据的结构化数据与分类规则引擎中每一个样本类群的结构化数据进行匹配：若匹配成功则将用户新增数据划分到相应样本类群中，否则利用用户新增数据的结构化数据对分类规则引擎进行迭代更新，并重新执行步骤22。

进一步的，步骤12中提取用户历史数据的关键词的方法为：获取预存于数据库中的语料库，根据语料库中的属性关键词列表，从用户历史数据中提取关键词。

进一步的，步骤21包括如下子步骤：

步骤211，通过计算同一样本类群所包含的所有用户历史数据的特征变量在每一维度的平均值或中位数，获取该样本类群在每一维度对应的类群量化值，将得到的类群量化值作为该样本类群的类群特征信息；

步骤212，将每个样本类群的关键词和类群特征信息作为结构化数据，并通过历史经验设置结构化数据L_i的权重系数w_i，使得

k表示样本类群中的结构化数据个数，即分类规则引擎中的单个样本类群是所有结构化数据与权重系数的集合。

进一步的，步骤22包括如下子步骤：

步骤221，获取全量用户的实时行为数据作为用户新增数据，并与数据库建立连接，对用户新增数据进行信息探测分析，并利用数据库中的分类规则引擎提取用户新增数据的特征信息；

步骤222，待存入数据库的用户新增数据首先需要判断其是否已经存在于样本类群中：若已存在于样本类群中，进入步骤223；若不存在于样本类群中，进入步骤224；

步骤223，步骤222中已经判断待存入数据库的用户新增数据为存在于样本类群中，则表示用户新增数据对应的用户已分类到某个样本类群中，因此直接执行数据库更新操作，将用户新增数据更新至样本类群中对应用户下；

步骤224，步骤222中已经判断待存入数据库的用户新增数据为不存在于样本类群中，则表示用户新增数据对应的用户为尚未分类到样本类群中的新用户，因此执行数据库插入操作：

a、获取预存于数据库中的语料库，根据语料库中的属性关键词列表，提取用户新增数据中的静态数据的关键词；将用户新增数据的关键词与每一个样本类群的关键词进行匹配，若匹配成功，则将用户新增数据划分到对应样本类群中；

b、提取用户新增数据的动态数据的特征信息，并将用户新增数据的特征信息与每一个样本类群的类群特征信息进行匹配，若匹配成功，则将用户新增数据划分到对应样本类群中；

c、若a和b均未匹配成功，则利用未匹配成功的用户新增数据的关键词和特征信息对分类规则引擎进行迭代更新：将未匹配成功的用户新增数据的关键词和特征信息增设为一个新的样本类群或将未匹配成功的用户新增数据的关键词和特征信息作为结构化数据L_i，匹配相应权重系数w_i，在分类规则引擎某个样本类群中增加新的变量w_iL_i，调整整体权重值，使得整体符合

的规律，然后重新执行步骤22。

进一步的，步骤221中通过数据库中的分类规则引擎对用户新增数据进行信息探测分析的方法包括以下三种：

a、配置一个query节点，按预设时间间隔周期性地从相应网站爬取用户新增数据；

b、将一个节点渗透为notify节点，获取相邻notify节点信息作为用户新增数据；

c、根据数据库的信息查询机制，主动获取用户新增数据。

进一步的，所述配置一个query节点，按预设时间间隔周期性地从相应网站爬取用户新增数据的具体操作为：修改配置文件，增加值为query的字段type，然后kafka网络程序会周期性地爬取相应网站从而获取用户新增数据。

进一步的，所述将一个节点渗透为notify节点，获取相邻notify节点信息作为用户新增数据的具体操作为：修改配置文件，增加值为notify的字段type，然后kafka网络程序会接收相邻的notify节点信息；同时，当kafka网络程序建立隧道时，隧道中相邻的两个notify节点会相互交换节点信息，当notify节点成为隧道中的一跳时，会保存相邻notify节点信息作为用户新增数据。

进一步的，所述根据数据库的信息查询机制，主动获取用户新增数据的具体操作为：修改配置文件，增加值为lookup的字段type，查询数据库已有的用户新增数据。

进一步的，步骤224中将用户新增数据的关键词与每一个样本类群的关键词进行匹配的方法为：采用笔画相似度进行匹配比较，即用户新增数据的关键词与每一个样本类群的关键词进行笔画相似度计算，计算结果大于相似度阈值则两者相似，将此用户新增数据划分相应的样本类群。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

1、本发明通过设置分类规则引擎有效合理地将全量用户进行分类，用户信息管理更加清晰高效，且使用方便。

2、本发明中用户新增数据进行分类后更新，既防止数据过期，又有利于迭代整个分类规则，使样本类群分类更精准。

3、本发明采用三种方法对用户新增数据进行探测，可以更大范围探测有效数据，并尽可能多的发现隐藏或缺失数据。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例的用户分类的筛选方法的流程图。

图2为本发明实施例的步骤22的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1所示，本实施例提出一种用户分类的筛选方法，包括用户历史数据的处理步骤和用户新增数据的处理步骤；

所述用户历史数据的处理步骤包括：

步骤11，获取用户历史数据；

步骤12，提取用户历史数据的关键词，并根据预设的分类规则引擎对用户历史数据组成的样本集群按照关键进行分类得到多个样本类群；关键词的词性类别能够代表内容相关信息；具体地，提取用户历史数据中的关键词的方法为，获取预存于数据库中的语料库，根据语料库中的属性关键词列表，提取用户历史数据中的关键词。

所述用户新增数据的处理步骤包括：

步骤21，根据预设的分类规则引擎对每个样本类群的用户历史数据进行量化，得到每一个样本类群的类群特征信息，将每个样本类群的关键词和类群特征信息作为结构化数据；具体包括如下子步骤：

步骤211，通过计算同一样本类群所包含的所有用户历史数据的特征变量在每一维度的平均值或中位数，获取该样本类群在每一维度对应的类群量化值，将得到的类群量化值作为该样本类群的类群特征信息；相同类型的量化值对应体现多个样本在同一维度所对应的特征信息，因此根据预设的分类规则引擎对每个样本类群的用户历史数据进行量化的方法为：通过计算同一样本类群所包含的所有用户历史数据(样本)的特征变量在每一维度的平均值或中位数，获取该样本类群在每一维度对应的类群量化值，将得到的类群量化值作为该样本类群的类群特征信息。

步骤22，获取用户新增数据并提取用户新增数据的结构化数据，将用户新增数据的结构化数据与分类规则引擎中每一个样本类群的结构化数据进行匹配：若匹配成功则将用户新增数据划分到相应样本类群中，否则利用用户新增数据的结构化数据对分类规则引擎进行迭代更新：增设为一个新的样本类群或将新增数据的属性信息量化成特征向量L_i，匹配相应权重系数w_i，在分类规则引擎某个样本类群中增加新的变量w_iL_i，调整整体权重值，使得整体符合

的规律，并重新执行步骤22。

在一个实施例中，步骤22的执行流程如图2所示，包括：

步骤221，获取全量用户的实时行为数据作为用户新增数据，并与数据库建立连接，对用户新增数据进行信息探测分析，并利用数据库中的分类规则引擎提取用户新增数据的特征信息；所述信息探测包括三种途径：

a、配置一个query节点，按预设时间间隔周期性地从相应网站爬取用户新增数据；即修改配置文件，增加值为query的字段type，然后kafka网络程序会周期性地爬取相应网站从而获取用户新增数据；

b、将一个节点渗透为notify节点，获取相邻notify节点信息作为用户新增数据；即修改配置文件，增加值为notify的字段type，然后kafka网络程序会接收相邻的notify节点信息；同时，当kafka网络程序建立隧道时，隧道中相邻的两个notify节点会相互交换节点信息，当notify节点成为隧道中的一跳时，会保存相邻notify节点信息作为用户新增数据；

c、根据数据库的信息查询机制，主动获取用户新增数据；即修改配置文件，增加值为lookup的字段type，查询数据库已有的用户新增数据；

步骤222，待存入数据库的用户新增数据首先需要判断其是否已经存在于样本类群中：若已存在于样本类群中，进入步骤223；若不存在于样本类群中，进入步骤224。

a、获取预存于数据库中的语料库，根据语料库中的属性关键词列表，提取用户新增数据中的静态数据的关键词；将用户新增数据的关键词与每一个样本类群的关键词进行匹配，若匹配成功，则将用户新增数据划分到对应样本类群中；其中，关键词进行匹配的方法为采用笔画相似度进行匹配比较，即用户新增数据的关键词与每一个样本类群的关键词进行笔画相似度计算，计算结果大于相似度阈值则两者相似，将此用户新增数据划分相应的样本类群。

的规律，然后重新执行步骤22。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种用户分类的筛选方法，其特征在于，包括用户历史数据的处理步骤和用户新增数据的处理步骤；

所述用户历史数据的处理步骤包括：

步骤11，获取用户历史数据；

所述用户新增数据的处理步骤包括：

2.根据权利要求1所述的用户分类的筛选方法，其特征在于，步骤12中提取用户历史数据的关键词的方法为：获取预存于数据库中的语料库，根据语料库中的属性关键词列表，从用户历史数据中提取关键词。

3.根据权利要求1所述的用户分类的筛选方法，其特征在于，步骤21包括如下子步骤：

4.根据权利要求3所述的用户分类的筛选方法，其特征在于，步骤22包括如下子步骤：

的规律，然后重新执行步骤22。

5.根据权利要求4所述的用户分类的筛选方法，其特征在于，步骤221中通过数据库中的分类规则引擎对用户新增数据进行信息探测分析的方法包括以下三种：

c、根据数据库的信息查询机制，主动获取用户新增数据。

6.根据权利要求5所述的用户分类的筛选方法，其特征在于，所述配置一个query节点，按预设时间间隔周期性地从相应网站爬取用户新增数据的具体操作为：修改配置文件，增加值为query的字段type，然后kafka网络程序会周期性地爬取相应网站从而获取用户新增数据。

7.根据权利要求5所述的用户分类的筛选方法，其特征在于，所述将一个节点渗透为notify节点，获取相邻notify节点信息作为用户新增数据的具体操作为：修改配置文件，增加值为notify的字段type，然后kafka网络程序会接收相邻的notify节点信息；同时，当kafka网络程序建立隧道时，隧道中相邻的两个notify节点会相互交换节点信息，当notify节点成为隧道中的一跳时，会保存相邻notify节点信息作为用户新增数据。

8.根据权利要求5所述的用户分类的筛选方法，其特征在于，所述根据数据库的信息查询机制，主动获取用户新增数据的具体操作为：修改配置文件，增加值为lookup的字段type，查询数据库已有的用户新增数据。

9.根据权利要求4所述的用户分类的筛选方法，其特征在于，步骤224中将用户新增数据的关键词与每一个样本类群的关键词进行匹配的方法为：采用笔画相似度进行匹配比较，即用户新增数据的关键词与每一个样本类群的关键词进行笔画相似度计算，计算结果大于相似度阈值则两者相似，将此用户新增数据划分相应的样本类群。