CN115048503A

CN115048503A - 一种基于内容分析的用户偏好标签设计方法

Info

Publication number: CN115048503A
Application number: CN202210520967.7A
Authority: CN
Inventors: 张洪梅; 孙云龙; 王继权
Original assignee: QIMING INFORMATION TECHNOLOGY CO LTD
Current assignee: QIMING INFORMATION TECHNOLOGY CO LTD
Priority date: 2022-05-13
Filing date: 2022-05-13
Publication date: 2022-09-13

Abstract

本发明公开了一种基于内容分析的用户偏好标签设计方法，包括如下步骤：通过内容采集与分词、文本特征挖掘、内容自动打标签和标签完善来建立基于内容的标签关键词库；分别通过前端和后端采集用户内容行为数据，并增加线下数据导入的方式来补充部分数据的缺失，采集完成后的数据通过数据包或结构化数据的方式批量传输，同时进行数据清洗，最后将完成数据清洗的数据储存起来，为后续用户标签权重的计算提供支持；基于TF‑IDF算法配置计算用户标签权重，产生用户偏好标签。本发明能够较精准获取到用户的偏好标签及其权重，为后续产品优化、精细化运营提供支持，同时也为偏好标签的建设提供了除机器学习之外的新思路。

Description

一种基于内容分析的用户偏好标签设计方法

技术领域

本发明涉及机器学习技术领域，尤其涉及一种基于内容分析的用户偏好标签设计方法。

背景技术

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能核心，是使计算机具有智能的根本途径。机器学习有下面几种定义：1. 机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。2. 机器学习是对能通过经验自动改进的计算机算法的研究。3. 机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。

机器学习是研究怎样使用计算机模拟或实现人类学习活动的科学，是人工智能中最具智能特征，最前沿的研究领域之一。自20世纪80年代以来，机器学习作为实现人工智能的途径，在人工智能界引起了广泛的兴趣，特别是近十几年来，机器学习领域的研究工作发展很快，它已成为人工智能的重要课题之一。机器学习不仅在基于知识的系统中得到应用，而且在自然语言理解、非单调推理、机器视觉、模式识别等许多领域也得到了广泛应用。一个系统是否具有学习能力已成为是否具有“智能”的一个标志。机器学习的研究主要分为两类研究方向：第一类是传统机器学习的研究，该类研究主要是研究学习机制，注重探索模拟人的学习机制；第二类是大数据环境下机器学习的研究，该类研究主要是研究如何有效利用信息，注重从巨量数据中获取隐藏的、有效的、可理解的知识。

当前正处于大数据飞速发展的时代，各行业对用户画像领域都有着迫切的建设需求，现有的用户画像建设多围绕在依托人们主观经验建立起来的统计类指标，如用户的地域分布、消费力购买水平、活跃度等维度，对用户偏好标签的挖掘相对较少，现有的标签库建立方法多依靠企业战略目标、从业人员的主观行业经验来建立，没有结合内容本身，另外在计算标签权重时，业内没有考虑到行为类型内部的质量因素，也会影响标签的权重。虽然机器学习是一种较好的开发方式，但挖掘类开发周期长，成本较高，难以在项目中推广，尤其是对中小型企业来说，是难以落地实现的。

发明内容

针对上述技术问题，本发明的目的在于提供一种基于内容分析的用户偏好标签设计方法，以解决如何精准获取到用户的偏好标签及其权重的技术问题。

为了达到上述目的，本发明所采用的技术方案为：一种基于内容分析的用户偏好标签设计方法，包括如下步骤：

通过内容采集与分词、文本特征挖掘、内容自动打标签和标签完善来建立基于内容的标签关键词库；

分别通过前端和后端采集用户内容行为数据，并增加线下数据导入的方式来补充部分数据的缺失，采集完成后的数据通过数据包或结构化数据的方式批量传输，同时进行数据清洗，最后将完成数据清洗的数据储存起来，为后续用户标签权重的计算提供支持；

基于TF-IDF算法配置计算用户标签权重，产生用户偏好标签。

进一步的，所述内容采集与分词包括：在内容采集时，通过文章、视频和用户简介来采集用户信息，在用户信息采集过程中选用了Python中的Jieba中文分词服务；在内容分词时，加入停用词，来完善最终的分词结果。

进一步的，所述文本特征挖掘包括：基于内容采集与分词中的分词结果，选用TF-IDF算法计算各关键词的权重，按照权重的大小排序，选取前m个关键词作为当前用户信息的关键词。

进一步的，所述内容自动打标签包括：将文本特征挖掘中选取的关键词与内容标签关键词库进行匹配，按照关键词的TF-IDF权重值之和进行排序，选取前n个标签为当前用户信息自动打标签。

进一步的，所述标签完善包括：当内容自动打标签失败或自动产生的标签不符合业务时，通过手工调整，并将调整后的关键词与标签的对应关系加入内容标签关键词库，为下一次内容自动打标签提供匹配关系。

进一步的，所述前端通过JS SDK、Android、iOS SDK或小程序SDK来统一全埋点采集用户内容行为数据；所述后端针对特殊业务采用代码探针埋点的方式，通用类业务通过日志采集同步，最终结果类数据通过业务库数据直接拉取的方式来采集用户内容行为数据。

进一步的，所述数据清洗包括数据类型、数据正确性和数据完整性方面的清洗，最后完成数据清洗的数据以日增量明细表、日全量统计数据表的方式进行储存，为后续用户标签权重的计算提供支持。

进一步的，所述基于TF-IDF算法配置计算用户标签权重的方法为：

用户标签权重=行为类型权重*行为质量因子*时间衰减*TF-IDF计算标签的重要度*行为次数*可配置规则。

本发明的有益效果在于：从内容出发，基于过滤停用词的TF-IDF算法，为内容自动打标签，产生动态可维护的标签关键词库，并为内容自动打标签提供了关键词参考；在此基础上通过采集用户行为，来收集用户内容标签，再次使用TF-IDF算法计算用户标签权重，从而能够较精准获取到用户的偏好标签及其权重，为后续产品优化、精细化运营提供支持，同时也为偏好标签的建设提供了除机器学习之外的新思路。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图示出的结构获得其他的附图。

图1为本发明流程框图；

图2为建立基于内容的标签关键词库的流程框图；

图3为采集用户内容行为数据的流程框图；

图4为计算用户标签权重的流程框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

下面结合附图，对本发明的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

实施例1：

参阅图1-4，一种基于内容分析的用户偏好标签设计方法，包括如下步骤：

基于TF-IDF算法配置计算用户标签权重，产生用户偏好标签。

在本实施例当中，建立基于内容的标签关键词库的具体流程可进一步参见图2，建立基于内容的标签关键词库包括内容采集与分词步骤，具体的，所述内容采集与分词包括分别包括内容采集和内容分词，在内容采集时，通过文章、视频和用户简介来采集用户信息，在用户信息采集过程中选用了Python中集成的、可以标注词性的中的Jieba中文分词服务；在内容分词时，通过Jieba进行分词和词性分析，并根据实际的分词结果，手工加入停用词，来完善最终的分词结果。

在本实施例当中，建立基于内容的标签关键词库的具体流程还包括文本特征挖掘步骤，具体的，所述文本特征挖掘包括：基于内容分词中的分词结果，选用TF-IDF算法计算各关键词的权重，按照权重的大小排序，选取前m个关键词作为当前用户信息的关键词，其中m的大小可以根据实际情况来确定。

TF-IDF（term frequency–inverse document frequency）是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency)，IDF是逆文本频率指数(InverseDocument Frequency)。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，因特网上的搜索引擎还会使用基于链接分析的评级方法，以确定文件在搜寻结果中出现的顺序。

在本实施例当中，建立基于内容的标签关键词库的具体流程还包括内容自动打标签步骤，具体的，所述内容自动打标签包括：将文本特征挖掘中选取的关键词与内容标签关键词库进行匹配，按照关键词的TF-IDF权重值之和进行排序，选取前n个标签为当前用户信息自动打标签，其中n的大小可以根据实际情况来灵活调整。

在本实施例当中，建立基于内容的标签关键词库的具体流程还包括标签完善步骤，具体的，所述标签完善包括：当内容自动打标签失败（无法自动打标签）或自动产生的标签不符合实际业务时，通过手工调整，并将调整后的关键词与标签的对应关系加入内容标签关键词库，为下一次内容自动打标签提供匹配关系。综上，通过内容采集与分词、文本特征挖掘、内容自动打标签和标签完善便可建立基于内容的标签关键词库。

在本实施例当中，在建立基于内容的标签关键词库后，接下来需要采集用户内容行为数据，采集用户内容行为数据具体可参见图3，通过建立基于内容的标签关键词库已经对用户信息标记了标签，这些已标记了标签的内容数据（用户信息），将为我们分析用户的偏好标签提供数据支撑。进一步的，采集用户内容行为数据主要从前端和后端两个角度来进行采集，并增加了线下数据导入的方式来补充部分数据的缺失。其中，所述前端通过JSSDK、Android、iOS SDK或小程序SDK来统一全埋点采集用户内容行为数据；所述后端针对特殊业务采用代码探针埋点的方式，通用类业务通过日志采集同步，最终结果类数据通过业务库数据直接拉取的方式来采集用户内容行为数据。

更进一步的，在本实施例当中，采集完成后通过数据包或结构化数据的方式批量传输，同时进行数据清洗，所述数据清洗包括校验数据类型、校验数据正确性和校验数据完整性等，其中对于业务价值高的节点，如果清洗不通过，将通过修复缺失数据的操作，包括缺失自动补充或人工调整完善等手段来干预完成数据清洗的目的。最后完成数据清洗的数据以日增量明细表、日全量统计数据表的方式以及周全量统计数据表和月全量统计数据表的方式进行储存，为后续用户标签权重的计算提供高效率的支持。

在本实施例当中，所述基于TF-IDF算法配置计算用户标签权重的流程具体可参阅图4，进一步的，根据采集用户内容行为数据可以得到如发表、浏览、收藏、转发分享等行为对应的内容标签，这些标签与用户偏好标签密切相关，其中标签权重是刻画用户特征的重要因素，本发明基于TF-IDF算法给出了可配置的计算用户标签权重的方法，并考虑到了行为的质量因素，为后续建设用户360度标签画像提供依据。TF-IDF是一种常用的数据统计加权方法，用于评估字词在文件集或语料库中相对于其他词语的重要程度，其原理可应用于给用户打标签上，如果出现在某用户身上的同一个标签次数越多，则说明这个标签对该用户很重要，但如果这个标签在全部标签集中出现的次数越多，则说明这个标签的重要性越低，无法鲜明的突出画像特征，在此理论支撑的基础上，结合影响标签权重的其他因素，如行为类型、行为质量、时间衰减、次数等得出以下可配置计算用户标签权重的公式。

更进一步的，基于TF-IDF算法配置计算用户标签权重的方法为：用户标签权重=行为类型权重*行为质量因子*时间衰减*TF-IDF计算标签的重要度*行为次数*可配置规则。

其中，行为类型权重：根据具体的应用场景来设定，如浏览的权重分数为1，转发的权重分数可能就是2，此权重分数需要数据建模人员、运营人员结合具体的业务场景给不同的行为类型定义权重，基本原则是复杂程度越高的行为权重越大，并且在实际应用中需要通过真实数据验证，不断调优。行为类型可配置规则库中包含行为定义、权重分数、从属画像维度、层次关系、关联计算、数值正负等可配置规则。

行为质量因子：用户的行为类型本身会有质量的好坏，比如浏览的一篇文章，看一眼就跳出与浏览完全文的所反映出的行为质量是不同的，为此，此公式中补充了行为质量因子。如用户浏览行为时，行为质量因子=1+平均浏览全文或完播的百分比，这类均可在行为质量因子可配置规则库中定义。

时间衰减：随着时间的推移，用户的历史行为与当前行为的相关性不断减弱，为了能够得到用户真实关注的内容，考虑时间长的行为，影响力变小，而有些行为还可能是无时间衰减的，在时间衰减规则库中，这些可根据不同的业务需求、统计维度可配置。

TF-IDF计算标签的重要度：TF来计算用户标签的重要程度，IDF(P，T)用于表示标签T的稀缺程度，根据TF-IDF算法，本文中计算用户标签权重公式中TF-IDF重要度为如下公式计算出的 TF与IDF的乘积。

TF(P，T)=W(P，T)/ΣW(P，Ti)，即TF=该标签标记该内容的次数除以该内容全部标签个数；

IDF(P，T)=ΣW(Pi，Ti) / ΣW(Pi，T)，即IDF=全部内容个数除以包含T标签的内容数，

W(P，T)=此标签用于标记该用户的次数，其中P为用户，T为标签。

行为次数：用户进行此行为类型的次数，如浏览的次数。

可配置规则：针对不同场景下，影响因素不同，可灵活配置，参与公式计算。应用以上过程，可以实现用户偏好标签从0-1的建设，并且在标签库建模过程融入了内容关键字，使得标签库主客观结合，更全面，并且可以实现自动打标签的功能。可配置的用户标签权重计算方式也为权重的计算增加了更多的可能，能够更精准的反应用户的真实画像,此种方法可以应用于其他维度，如商城、金融等用户偏好维度，从而可以绘制出用户的多维度精准画像。

本发明收集了内容的关键字，为产品或运营人员的模型标签提供了依据，主客观因素的融合使标签更全面、精准。改造了常用的计算用户标签权重的公式，增加了与行为类型相关的行为质量因子，更能全面准确的计算用户标签权重。同时将公式设计为可配置的方式，支持更多影响权重的因素加入其中。在机器学习成本较高的基础上，本发明提出了一种可落地的自动打标签的方式，为用户偏好画像的建设提供了新思路。

需要说明的是，对于前述的实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例属于优选实施例，所涉及的动作并不一定是本申请所必须的。

上述实施例中，描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于内容分析的用户偏好标签设计方法，其特征在于，包括如下步骤：

基于TF-IDF算法配置计算用户标签权重，产生用户偏好标签。

2.如权利要求1所述的一种基于内容分析的用户偏好标签设计方法，其特征在于，所述内容采集与分词包括：在内容采集时，通过文章、视频和用户简介来采集用户信息，在用户信息采集过程中选用了Python中的Jieba中文分词服务；在内容分词时，加入停用词，来完善最终的分词结果。

3.如权利要求1所述的一种基于内容分析的用户偏好标签设计方法，其特征在于，所述文本特征挖掘包括：基于内容采集与分词中的分词结果，选用TF-IDF算法计算各关键词的权重，按照权重的大小排序，选取前m个关键词作为当前用户信息的关键词。

4.如权利要求1所述的一种基于内容分析的用户偏好标签设计方法，其特征在于，所述内容自动打标签包括：将文本特征挖掘中选取的关键词与内容标签关键词库进行匹配，按照关键词的TF-IDF权重值之和进行排序，选取前n个标签为当前用户信息自动打标签。

5.如权利要求1所述的一种基于内容分析的用户偏好标签设计方法，其特征在于，所述标签完善包括：当内容自动打标签失败或自动产生的标签不符合业务时，通过手工调整，并将调整后的关键词与标签的对应关系加入内容标签关键词库，为下一次内容自动打标签提供匹配关系。

6. 如权利要求1所述的一种基于内容分析的用户偏好标签设计方法，其特征在于，所述前端通过JS SDK、Android、iOS SDK或小程序SDK来统一全埋点采集用户内容行为数据；所述后端针对特殊业务采用代码探针埋点的方式，通用类业务通过日志采集同步，最终结果类数据通过业务库数据直接拉取的方式来采集用户内容行为数据。

7.如权利要求1所述的一种基于内容分析的用户偏好标签设计方法，其特征在于，所述数据清洗包括数据类型、数据正确性和数据完整性方面的清洗，最后完成数据清洗的数据以日增量明细表、日全量统计数据表的方式进行储存，为后续用户标签权重的计算提供支持。

8.如权利要求1所述的一种基于内容分析的用户偏好标签设计方法，其特征在于，所述基于TF-IDF算法配置计算用户标签权重的方法为：