CN108920546B

CN108920546B - 一种基于用户需求的稳态标签开发方法及系统

Info

Publication number: CN108920546B
Application number: CN201810610098.0A
Authority: CN
Inventors: 林苗; 谢晓峰
Original assignee: Hangzhou Shuli Big Data Technology Co ltd
Current assignee: Hangzhou Shuli Big Data Technology Co ltd
Priority date: 2018-06-13
Filing date: 2018-06-13
Publication date: 2020-09-11
Anticipated expiration: 2038-06-13
Also published as: CN108920546A; WO2019237461A1

Abstract

一种基于用户需求的稳态标签开发方法及系统，属于大数据处理技术领域。本发明方法包括步骤S01，建立样本标签库，样本标签库包含样本心理标签维度和样本心理标签语料库；步骤S02，获取需求项目的文本信息，并将其与心理标签语料库进行文本匹配，输出项目需求向量；步骤S03，获取用户使用项目的行为数据，根据项目需求向量和行为数据计算用户需求向量，建立稳态标签库，稳态标签库包含稳态心理标签维度和稳态心理标签语料库；每个样本心理标签维度/稳态心理标签维度具有与之对应的包含于样本心理标签语料库/稳态心理标签语料库内的心理标签语料。本发明解决了推荐系统新用户场景下的“冷启动”、标签更新速度快、跨领域迁移性差、数据稀疏等问题。

Description

一种基于用户需求的稳态标签开发方法及系统

技术领域

本发明属于大数据处理技术领域，尤其涉及一种基于用户需求的稳态标签开发方法及系统。

背景技术

随着大数据时代的来临，网络中的信息量呈现指数式增长，推荐系统应用而生，其能主动地从大量信息中找到用户可能感兴趣的信息，得出用户的兴趣偏好，从而可以向用户推荐他们现在和将来可能会喜欢的项目。

目前推荐系统大都应用于电商类的购物网站及网络信息平台，作为相关商品及项目推荐。协同过滤是目前主流的推荐机制，主要是指根据用户对物品或者信息的偏好，发现物品、内容或用户本身的相关性，基于这些关联性进行推荐，其核心是收集用户偏好、找到相似的用户或物品、计算并推荐。其中，获取用户偏好，理解用户需求，对用户进行分类识别建模，是影响推荐系统质量和应用发展的关键。但，该推荐机制对历史数据质量具有一定依赖性，存在新用户场景下的“冷启动”的问题。“冷启动”问题包括数据稀疏性（sparsity）和新用户（the new user）问题。数据稀疏性主要是指由于系统或物品处于新上线状态，缺少用户的浏览、购买、评价等历史数据；新用户问题主要是指用户处于新登录状态，未对任务物品进行过评分，无法确定用户偏好及需求。并且，在推荐分析过程中，需要大量、重复多次浏览历史信息，数据量庞大，数据处理缓慢，推荐效率低。另外，以视频推荐为例，用户在实际查找视频过程中，由于每个人对视频要求的喜好不同，且同一用户在不同时期对视频要求的喜好不同。如果仅针对用户浏览历史信息进行推荐，推荐数据的准确度不高，无法满足用户需求。

国内外的众多研究曾在协同过滤技术中引入性格特征，从性格的维度上计算用户的相似性，相比于传统的协同过滤手段，能显著提升推荐的准确性。但是，性格的测量主要是通过问卷，以用户的主观反馈来进行，并不能从本质上挖掘用户的需求。

在推荐系统中普遍采用标签结合不同推荐机制来实现推荐过程。而现有推荐系统中的标签需要不停开发，在一段较长时间内不够稳定，使得采用这类标签的推荐系统推荐的信息不够确切，无法满足用户推荐选择需求，尤其无法从多方面全面分析用户心理过程而形成满足用户心理需求的推荐信息。

发明内容

本发明的目的是提供一种全面分析用户在使用过程中的心理过程的基于用户需求的稳态标签开发方法及系统。

根据上述目的，本发明提供一种基于用户需求的稳态标签开发方法，包括：

步骤S01，建立样本标签库，所述样本标签库包含样本心理标签维度和样本心理标签语料库；

步骤S02，获取需求项目的文本信息，并将其与样本心理标签语料库进行文本匹配，输出项目需求向量；

步骤S03，获取用户使用项目的行为数据，根据项目需求向量和行为数据计算用户需求向量，建立稳态标签库，所述稳态标签库包含稳态心理标签维度和稳态心理标签语料库；

其中，每个样本心理标签维度具有与之对应的包含于样本心理标签语料库内的心理标签语料；每个稳态心理标签维度具有与之对应的包含于稳态心理标签语料库内的心理标签语料。

作为本发明优选，步骤S01具体包括：

步骤S11,采集用户样本信息；

步骤S12，对用户样本信息进行文本分析和语义分析；

步骤S13，基于文本分析和语义分析的结果，建立样本标签库。

作为本发明优选，所述文本信息的数据采集源包括基本信息、评论和简介。

作为本发明优选，所述项目为APP、终端、视频、音频、阅读、购物中的任意一种。

作为本发明优选，所述方法还包括在步骤S01建立样本标签库后，对样本心理标签语料库进行动态扩充。

作为本发明优选，步骤S03具体为: 获取用户使用项目的行为数据，将项目需求向量和行为数据进行训练样本加权平均后计算用户需求向量，建立稳态标签库。

作为本发明优选，所述方法还包括在步骤S03计算用户需求向量后，与项目需求向量进行相似性匹配，生成推荐列表。

本发明还提供一种基于用户需求的稳态标签开发系统，包括：

样本模块，用于建立样本标签库，所述样本标签库包含样本心理标签维度和样本心理标签语料库；

项目需求模块，用于获取需求项目的文本信息，并将其与样本心理标签语料库进行文本匹配，输出项目需求向量；

用户需求模块，用于获取用户使用项目的行为数据，根据项目需求向量和行为数据计算用户需求向量，建立稳态标签库，所述稳态标签库包含稳态心理标签维度和稳态心理标签语料库；

作为本发明优选，所述样本模块包括：

采集单元，用于采集用户样本信息；

分析单元，用于对用户样本信息进行文本分析和语义分析；以及

建立单元，用于基于文本分析和语义分析的结果，建立样本标签库。

作为本发明优选，所述系统还包括动态扩充模块，用于动态扩充心理标签语料库。

作为本发明优选，所述项目需求模块包括：

项目获取单元，用于获取需求项目的基本信息、评论和简介等数据源，以及

文本匹配单元，用于提取样本标签库内的样本心理标签维度和样本心理标签语料库进行文本匹配，输出项目需求向量。

作为本发明优选，所述用户需求模块包括：

获取单元，用于获取用户使用项目的行为数据，以及

训练单元，用于将项目需求向量和行为数据进行训练样本加权平均后计算用户需求向量，建立稳态标签库。

作为本发明优选，所述系统还包括推荐模块，用于将用户需求向量与项目需求向量进行相似性匹配，生成推荐列表。

本发明具有以下有益效果:

本发明一种基于用户需求的稳态标签开发方法及系统，全面分析用户在使用项目过程中的心理过程，充分挖掘用户的心理需求，开发建立基于用户需求的稳态标签库，有效解决推荐系统新用户场景下的“冷启动”、标签更新速度快、跨领域迁移性差、数据稀疏等问题。

附图说明

图1为本发明一种基于用户需求的稳态标签开发方法的总流程框图；

图2为图1中步骤S01的子流程框图；

图3为本发明一种基于用户需求的稳态标签开发系统的原理框图。

具体实施方式

以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例，本领域技术人员可以想到其他显而易见的变型。在以下描述中界定的本发明的基本原理可以应用于其他实施方案、变型方案、改进方案、等同方案以及没有背离本发明的精神和范围的其他技术方案。

随着网络的发展，数据量正呈几何级数增长，海量数据的出现导致信息过载，大量无关冗余数据信息严重干扰了受众对相关有用信息的准确性选择。为此，推荐系统应运而生。推荐系统根据不同的推荐机制会形成不同的推荐信息。大多数推荐系统采用标签来标识不同类型的信息，但采用现有推荐机制下的标签需要不停地进行开发，标签在相当长一段时间不够稳定。为此，本发明提供一种基于用户需求的稳态标签开发方法及系统，生成稳定的稳态标签库。所述稳态标签库用于推荐系统，为用户提供满足用户全方位心理需求的推荐信息。

如图1 ，本发明提供一种基于用户需求的稳态标签开发方法，包括：

步骤S01，建立样本标签库，所述样本标签库包含样本心理标签维度和样本心理标签语料库。

步骤S02，获取需求项目的文本信息，并将其与样本心理标签语料库进行文本匹配，输出项目需求向量。

步骤S03，获取用户使用项目的行为数据，根据项目需求向量和行为数据计算用户需求向量，建立稳态标签库，所述稳态标签库包含稳态心理标签维度和稳态心理标签语料库。

具体地，如图2，步骤S01包括：

步骤S11,采集用户样本信息。

根据心理学需求理论，以及一般用户对项目，如视频、APP、终端、音频、阅读、购物等应用的使用行为习惯，编制访谈提纲，开展小样本的用户半结构化访谈。通过该访谈，采集用户样本信息。

例如，对视频APP项目进行访谈，访谈提纲涉及“选什么APP观看视频”、“什么时间段观看视频”等问题，用户根据问题回答，回答的信息作为用户样本信息被采集。

步骤S12，对用户样本信息进行文本分析和语义分析。

一方面，采用扎根理论对采集的用户样本信息进行文本编码方式的文本分析，提取关于需求的样本心理标签维度和样本心理标签语料库。另一方面，专家对采集的用户样本信息进行语义理解和分析，提出数据需求。

样本心理标签维度有多个，可根据用户需求设定，如设定包括安全、审美、实惠、社交、学习等多个维度。每个样本心理标签维度下有对应的样本心理标签语料，如“审美”样本心理标签维度包括相对应的“优美”、“难看”等样本心理标签语料。多个样本心理标签维度的样本心理标签语料构成了样本心理标签语料库。为了使每个样本心理标签维度对应有全面的样本心理标签语料，所述样本心理标签语料可以包括“核心词”、“核心搭配”、“否定词”、“否定搭配”等。例如，“审美”样本心理标签维度包括的样本心理标签语料如下：核心词（优美、好看、漂亮、精致）、核心搭配（视觉│震撼、画面│有美感、背景│棒）、否定词（丑、土、难看）、否定搭配（不│精致、不│美观）等。

语义分析可以由人工专家进行，或通过算法、数据需求模型、数据需求约束条件等由人工智能的专家进行。

文本分析的结果结合语义分析所获知数据需求，可获得样本标签库。所述样本标签库包含样本心理标签维度和样本心理标签语料库。例如，样本标签库中具有“审美”标签、“学习”标签等多个样本标签，其中“审美”标签包括“审美”维度、核心词（优美、好看、漂亮、精致）、核心搭配（视觉│震撼、画面│有美感、背景│棒）、否定词（丑、土、难看）、否定搭配（不│精致、不│美观）。

样本标签库是基于小样本建立的，通过语义分析和文本分析获得的样本心理标签语料库不是很大，每个维度大概有100多个。为此，需要动态扩充样本标签库。采用Word2vec算法通过计算词与词之间的距离来进行扩充，把与核心词、核心词搭配、否定词、否定搭配距离近的词划分到相应的维度下面。

步骤S02具体为：利用爬虫技术获取关于需求项目，如视频、音频、阅读、app、终端、购物等的文本信息。所述文本信息的数据采集源包括基本信息、评论和简介。其中,所述基本信息为需求项目基本信息,如app、视频的上线时间，点击人数，观看人数，甚至还有未在简介中涉及的信息，如视频导演、地域信息等；所述评论为用户对需求项目的评论；所述简介为需求项目的简要介绍，如项目涉及内容、时长等信息。提取样本标签库内的样本心理标签维度和样本心理标签语料库，采用Random Walk with Restart等算法进行文本匹配，输出项目需求向量，如视频需求向量、app需求向量。

每个项目需求向量为一个多维度的需求向量，如样本心理标签维度设定为12个时，该项目需求向量为一个12维的需求向量。其中，维度的排列顺序可根据需要设定。在既定排列顺序下的每个维度，根据评论词和/或简介词和语料词的匹配结果进行打分，通过分值来确定视频的需求性质。例如，当需求项目视频有5个评论词和/或简介词属于标签维度“审美”对应的语料库中的语料，则打分为5分，当有2个评论词和/或简介词属于标签维度“学习”对应的语料库中的语料，则打分为2分，通过分值大小可见该视频的需求性质为“审美”。另外，打分方式也可以按照权重的方式进行，且并不限于本文指出的两种方式。

在此文本匹配过程中，可对样本心理标签语料库进行动态扩充。采集来自简介和评论的文本信息，采用Word2vec算法通过计算词与词之间的距离来进行扩充，把与核心词、核心词搭配、否定词、否定搭配距离近的词划分到相应的维度下面。

步骤S03具体为: 获取用户使用项目的行为数据，将项目需求向量和行为数据进行训练样本加权平均后计算用户需求向量，建立稳态标签库。

用户使用项目的行为数据包括显性反馈行为数据和隐性反馈行为数据，所述显性反馈行为数据包括用户评分评论等数据，所述隐性反馈行为数据包括浏览量、点击量，观看时长等数据。上述行为数据可在电商应用或信息平台（如PC网站、APP等）获得。

每个用户需求向量为一个多维度的需求向量，其具有与项目需求向量相同维度的需求向量。根据用户对需求项目的使用情况进行打分，通过加权训练的方式来确定用户的需求性质。例如，把用户在某个时间段内使用的所有需求项目向量进行加权平均，得到用户需求向量。另外，打分方式也可以按照其他方式进行，且并不限于本文指出的方式。

所述稳态标签库基于计算的用户需求向量获得，其包含稳态心理标签维度和稳态心理标签语料库。每个稳态心理标签维度具有与之对应的包含于稳态心理标签语料库内的心理标签语料。

所述方法还包括在步骤S03计算用户需求向量后，与项目需求向量进行相似性匹配，生成推荐列表。

项目需求向量反映了项目在各维度方面的需求特性。用户需求向量反映了特定用户对于项目在各维度方面的需求特性。一旦了解了用户在各维度方面的需求后，将项目需求向量与用户需求向量进行匹配，如当用户对于视频项目的需求性质从分值高低包括“学习”、“审美”、“安全”等，则匹配到的项目按照需求性质的分值进行排列，继而形成可供用户参考的推荐列表。

图3示出了本发明一种基于用户需求的稳态标签开发系统，该系统可采用上述开发方法实现。

本发明一种基于用户需求的稳态标签开发系统，包括样本模块、项目需求模块、用户需求模块。

所述样本模块用于建立样本标签库，所述样本标签库包含样本心理标签维度和样本心理标签语料库。样本心理标签维度有多个，且每个维度具有对应的样本心理标签语料，多个维度的心理标签语料构成了样本心理标签语料库。所述样本模块包括采集单元，根据心理学需求理论，以及一般用户对项目，如视频、APP、终端、音频、阅读、购物等应用的使用行为习惯，编制访谈提纲，开展小样本的用户半结构化访谈，进而采集用户样本信息；分析单元，一方面，采用扎根理论对采集的用户样本信息进行文本编码方式的文本分析，提取关于需求的样本心理标签维度和样本心理标签语料库，另一方面，专家对采集的用户样本信息进行语义理解和分析，提出数据需求；以及建立单元，结合文本分析和语义分析最终获得全面、准确、稳定的样本心理标签语料库。

所述项目需求模块用于获取需求项目的文本信息，并将其与样本心理标签语料库进行文本匹配，输出项目需求向量。所述项目需求模块包括项目获取单元，通过爬虫技术获取关于需求项目，如视频、音频、阅读、app、终端、购物等的文本信息。所述文本信息的数据采集源包括基本信息、评论和简介；其中,所述基本信息为需求项目基本信息,如app、视频的上线时间，点击人数，观看人数，甚至还有未在简介中涉及的信息，如视频导演、地域信息等；所述评论为用户对需求项目的评论；所述简介为需求项目的简要介绍，如项目涉及内容、时长等信息。所述项目需求模块还包括文本匹配单元，用于提取样本标签库内的样本心理标签维度和样本心理标签语料库，采用Random Walk with Restart等算法进行文本匹配，输出项目需求向量，如视频需求向量、app需求向量。每个项目需求向量为一个多维度的需求向量，如样本心理标签维度设定为12个时，该项目需求向量为一个12维的需求向量。其中，维度的排列顺序可根据需要设定。

所述项目需求模块还包括项目打分单元，对在既定排列顺序下的每个维度，根据评论词和/或简介词和语料词的匹配结果进行打分，通过分值来确定视频的需求性质。例如，当需求项目视频有5个评论词和/或简介词属于标签维度“审美”对应的语料库中的语料，则打分为5分，当有2个评论词和/或简介词属于标签维度“学习”对应的语料库中的语料，则打分为2分，通过分值大小可见该视频的需求性质为“审美”。另外，打分方式也可以按照权重的方式进行，且并不限于本文指出的两种方式。

所述用户需求模块用于获取用户使用项目的行为数据，根据项目需求向量和行为数据计算用户需求向量，建立稳态标签库，所述稳态标签库包含稳态心理标签维度和稳态心理标签语料库。所述用户需求模块包括获取单元，用于获取用户使用项目的行为数据，训练单元，用于将项目需求向量和行为数据进行训练样本加权平均后计算用户需求向量，建立稳态标签库。用户使用项目的行为数据包括显性反馈行为数据和隐性反馈行为数据，所述显性反馈行为数据包括用户评分评论等数据，所述隐性反馈行为数据包括浏览量、点击量，观看时长等数据。上述行为数据可在电商应用或信息平台（如PC网站、APP等）获得。每个用户需求向量为一个多维度的需求向量，其具有与项目需求向量相同维度的需求向量。

所述用户需求模块还包括用户打分单元，根据用户对需求项目的使用情况进行打分，通过加权训练的方式来确定用户的需求性质。例如，把用户在某个时间段内使用的所有需求项目向量进行加权平均，得到用户需求向量。另外，打分方式也可以按照其他方式进行，且并不限于本文指出的方式。

本发明系统还包括动态扩充模块，用于动态扩充心理标签语料库。具体地，所述动态扩充模块包括样本动态扩充单元和匹配扩充单元。样本标签库是基于小样本建立的，通过语义分析和文本分析获得的样本心理标签语料库每个维度大概有100多个。为此，所述样本动态扩充单元采用Word2vec算法通过计算词与词之间的距离来进行扩充，把与核心词、核心词搭配、否定词、否定搭配距离近的词划分到相应的维度下面。而在进行文本匹配时，会采集来自简介和评论的文本信息，新采集的文本信息不在心理标签语料库中时，所述匹配扩充单元也可采用Word2vec算法通过计算词与词之间的距离来进行扩充，把与核心词、核心词搭配、否定词、否定搭配距离近的词划分到相应的维度下面。

本发明系统还包括推荐模块，用于将用户需求向量与项目需求向量进行相似性匹配，生成推荐列表。项目需求向量反映了项目在各维度方面的需求特性。用户需求向量反映了特定用户对于项目在各维度方面的需求特性。一旦了解了用户在各维度方面的需求后，将项目需求向量与用户需求向量进行匹配，如当用户对于视频项目的需求性质从分值高低包括“学习”、“审美”、“安全”等，则匹配到的项目按照需求性质的分值进行排列，继而形成可供用户参考的推荐列表。

本发明系统及方法从行为数据入手，对用户的心理需求进行挖掘，防止出现用户对自身进行主观美化等问题；开发的心理标签稳定性好、可解释性好，可跨系统跨领域迁移，能有效解决推荐系统数据稀疏、无法对新用户进行推荐等冷启动问题。

本领域的技术人员应理解，上述描述及附图中所示的本发明的实施例只作为举例而并不限制本发明。本发明的目的已经完整有效地实现。本发明的功能及结构原理已在实施例中展示和说明，在没有背离所述原理下，本发明的实施方式可以有任何变形或修改。

Claims

1.一种基于用户需求的稳态标签开发方法，其特征在于，包括:

步骤S01，建立样本标签库，所述样本标签库包含样本心理标签维度和样本心理标签语料库；步骤S01具体包括：步骤S11,通过结构化访谈采集用户样本信息；步骤S12，对用户样本信息进行文本分析和语义分析；步骤S13，基于文本分析和语义分析的结果，进行心理学需求特征提取，建立样本标签库；

步骤S03，获取用户使用项目的行为数据，根据项目需求向量和行为数据计算用户需求向量，建立稳态标签库，所述稳态标签库包含稳态心理标签维度和稳态心理标签语料库；其中，每个样本心理标签维度具有与之对应的包含于样本心理标签语料库内的心理标签语料；每个稳态心理标签维度具有与之对应的包含于稳态心理标签语料库内的心理标签语料；所述用户使用项目的行为数据包括显性反馈行为数据和隐性反馈行为数据。

2.根据权利要求1所述的一种基于用户需求的稳态标签开发方法，其特征在于，所述文本信息的数据采集源包括基本信息、评论和简介。

3.根据权利要求1所述的一种基于用户需求的稳态标签开发方法，其特征在于，所述项目为APP、终端、视频、音频、阅读、购物中的任意一种。

4.根据权利要求1所述的一种基于用户需求的稳态标签开发方法，其特征在于，还包括在步骤S01建立样本标签库后，对样本心理标签语料库进行动态扩充。

5.根据权利要求1所述的一种基于用户需求的稳态标签开发方法，其特征在于，步骤S03具体为:获取用户使用项目的行为数据，将项目需求向量和行为数据进行训练样本加权平均后计算用户需求向量，建立稳态标签库。

6.根据权利要求1或5所述的一种基于用户需求的稳态标签开发方法，其特征在于，还包括在步骤S03计算用户需求向量后，与项目需求向量进行相似性匹配，生成推荐列表。

7.一种基于用户需求的稳态标签开发系统，其特征在于，包括：

样本模块，用于建立样本标签库，所述样本标签库包含样本心理标签维度和样本心理标签语料库；所述样本模块包括：

采集单元，用于通过结构化访谈采集用户样本信息；

分析单元，用于对用户样本信息进行文本分析和语义分析；

建立单元，用于基于文本分析和语义分析的结果，进行心理学需求特征提取，建立样本标签库；

所述用户使用项目的行为数据包括显性反馈行为数据和隐性反馈行为数据。

8.根据权利要求7所述的一种基于用户需求的稳态标签开发系统，其特征在于，所述用户需求模块包括：

获取单元，用于获取用户使用项目的行为数据，以及

训练单元，用于将项目需求向量和行为数据进行训练样本加权平均后计算用户需求向量，建立稳态标签库；

9.根据权利要求7所述的一种基于用户需求的稳态标签开发系统，其特征在于，还包括推荐模块，用于将用户需求向量与项目需求向量进行相似性匹配，生成推荐列表。