CN113283235B

CN113283235B - 一种用户标签的预测方法及系统

Info

Publication number: CN113283235B
Application number: CN202110822167.6A
Authority: CN
Inventors: 姚娟娟; 钟南山
Original assignee: Mingpinyun Beijing Data Technology Co Ltd
Current assignee: Shanghai Mingping Medical Data Technology Co ltd
Priority date: 2021-07-21
Filing date: 2021-07-21
Publication date: 2021-11-19
Anticipated expiration: 2041-07-21
Also published as: CN113283235A

Abstract

本发明提供一种用户标签的预测方法及系统，所述的用户标签的预测方法包括：获取用户文本集和预设的关键词库；通过关键词获取一用户文本中的各个近似词，按照关联度的大小，获取排名前m的近似词所对应的关键词，并确定所述对应的关键词匹配的n维向量，通过m个所述n维向量确定特征矩阵；将特征矩阵输入神经网络进行训练，获取预测模型；通过预测模型预测待处理的用户文本，获取预测的用户标签。通过设置关键词库，获取一用户文本中与关键词相匹配的近似词，确定与近似词相匹配的关键词以及确定关键词匹配的n维向量，并通过m个所述n维向量确定特征矩阵，提高了处理用户文本获取用户标签的速度和精度。

Description

一种用户标签的预测方法及系统

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种用户标签的预测方法及系统。

背景技术

用户标签是构成用户画像的核心因素，是将用户在平台内所产生的行为数据，分析提炼后生成具有差异性特征的形容词。即用户通过平台，在什么时间什么场景下做了什么行为，平台将用户所有行为数据提炼出来形成支撑业务实现的可视化信息或者可视化标签。随着用户行为的特异化和个性化，每个用户的用户标签也相应地存在差异，而基于用户文本的标签预测受限制于文本语义的深层次和多模态等问题，往往精确性较低。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种用户标签的预测方法及系统，用于解决现有技术中的问题。

为实现上述目的及其他相关目的，本发明提供一种用户标签的预测方法，包括：

获取用户文本集和预设的关键词库，所述用户文本集中包括多个用户文本，所述关键词库包括多个关键词；

通过关键词获取一用户文本中的各个近似词，按照关联度的大小，获取排名前m的近似词所对应的关键词，并确定所述对应的关键词匹配的n维向量，通过m个所述n维向量确定特征矩阵，其中，m和n均为正整数；

将多个用户文本分别对应的特征矩阵输入神经网络进行训练，获取预测模型；

通过预测模型预测待处理的用户文本，获取预测的用户标签。

可选的，包括：

定义L为关联度，关键词的n维向量为（X₁、……、X_i、……、X_n），近似词的n维向量为（Y₁、……、Y_i、……、Y_n）；

当（X₁、……、X_i、……、X_n）和（Y₁、……、Y_i、……、Y_n）不相等时，关联度的数学表达为：

当（X₁、……、X_i、……、X_n）=（Y₁、……、Y_i、……、Y_n）时，关联度为1。

可选的，将获取的用户标签与m个n维向量相匹配，获取关联度小于1的各个近似词，并确定为近似词集；

获取一用户标签的各个近似词集，并从各个所述近似词集中确定交集；

将所述交集对应的近似词更新为所述关键词库中的关键词。

可选的，包括：

通过更新后的关键词库中的关键词，确定用户文本中更新后的各个近似词汇；

按照关联度的大小，获取排名前m的近似词所对应的更新后的关键词，并确定所述更新后的关键词匹配的n维向量，通过m个所述n维向量确定更新后的特征矩阵；

将多个用户文本分别对应的更新后的特征矩阵输入神经网络进行训练，获取更新后的预测模型；

通过所述更新后的预测模型预测待处理的用户文本，获取更新后的用户标签。

一种用户标签的预测系统，包括：

预处理模块，用于获取用户文本集和预设的关键词库，所述用户文本集中包括多个用户文本，所述关键词库包括多个关键词，通过关键词获取一用户文本中的各个近似词，按照关联度的大小获取排名前m的近似词所对应的关键词，并确定所述对应的关键词匹配的n维向量，通过m个所述n维向量确定特征矩阵，其中，m和n均为正整数；

模型模块，用于将多个用户文本分别对应的特征矩阵输入神经网络进行训练，获取预测模型；

处理模块，用于通过预测模型处理待处理的用户文本，获取预测的用户标签；

所述预处理模块、所述模型模块以及所述处理模块之间信号连接。

可选的，定义L为关联度，关键词的n维向量为（X₁、……、X_i、……、X_n），近似词的n维向量为（Y₁、……、Y_i、……、Y_n）；

可选的，预处理模块将获取的用户标签与m个n维向量相匹配，获取关联度小于1的各个近似词，并确定为近似词集；

将所述交集对应的近似词更新为所述关键词库中的关键词。

可选的，模型模块通过更新后的关键词库中的关键词，确定用户文本中更新后的各个近似词汇；按照关联度的大小，获取排名前m的近似词所对应的更新后的关键词，并确定所述更新后的关键词匹配的n维向量，通过m个所述n维向量确定更新后的特征矩阵；将多个用户文本分别对应的更新后的特征矩阵输入神经网络进行训练，获取更新后的预测模型；

处理模块通过所述更新后的预测模型预测待处理的用户文本，获取更新后的用户标签。

一种电子设备，包括：一个或多个处理器；和其上存储有指令的一个或多个机器可读介质，当所述一个或多个处理器执行时，使得所述电子设备执行所述的方法。

一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得设备执行所述的方法。

如上所述，本发明的用户标签的预测方法及系统，具有以下有益效果：

本方案通过设置关键词库，获取一用户文本中与该关键词库中的关键词相匹配的近似词，确定与近似词相匹配的关键词以及确定一关键词匹配的n维向量，并通过m个所述n维向量确定特征矩阵，避免直接处理用户文本中的近似词出现的高离散性和多模态的问题，提高了处理用户文本获取用户标签的速度和精度。

附图说明

图1显示为本发明实施例的用户标签的预测方法的流程示意图。

图2显示为本发明另一实施例的用户标签的预测方法的流程示意图。

图3显示为本发明实施例的用户标签的预测系统的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

需要说明的是，本实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。本说明书所附图式所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时，本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

目前，存在一些通过关键词来获取用户文本中出现的相应的关键词，并进行自然语言处理，获取用户文本的语义以及用户标签，受限制于用户的表述能力和词汇表达能力，自然语言处理的精度往往与关键词的精确性以及库容量相关，在实际操作过程中，往往会出现用户文本中没有相应的关键词的情况，为理解用户文本的语义以及获取用户标签造成了很大的障碍，请参阅图1，本发明提供一种用户标签的预测方法，包括：

S1：获取用户文本集和预设的关键词库，所述用户文本集中包括多个用户文本，所述关键词库包括多个关键词，用户文本可以从用户与系统的历史交互过程中获取相关信息，也可以通过用户自述的方式获取，关键词库可以从高频词汇或者核心词汇中获取，而一般情况下，预设的关键词库精确性、关联性强，但是，词库不能较好的覆盖近义词或者同义词，也受到关键词库的容量的限制；

S2：通过关键词获取一用户文本中的各个近似词，按照关联度的大小，获取排名前m的近似词所对应的关键词，并确定所述对应的关键词匹配的n维向量，通过m个所述n维向量确定特征矩阵，其中，m和n均为正整数，为了避免用户文本中没有与关键词库直接匹配的词汇的情况出现，还可以按照与关键词的关联度大小进行排名，获取关联度排名靠前的近似词，多个近似词能够反映出整篇用户文本所承载的语义以及用户标签，同时，为了避免直接分析近似词产生的离散度高、多模态的问题，可以通过分析与近似词相对应的关键词，获取用户文本中的语义，通过m个所述n维向量确定特征矩阵；

S3：将多个用户文本分别对应的特征矩阵输入神经网络进行训练，获取预测模型，在一些实施过程中，该神经网络包括输入层、隐藏层和输出层，通过将特征矩阵输入输入层进行离散化，通过隐藏层中的各个神经元进行信号处理，还可以设置合理的损失函数进行迭代训练，调整各个神经元的权值，例如，可以采用信息熵或者交叉熵函数作为损失函数进行训练，降低预测值与期望值之间的差值，最后通过输出层的激活函数进行激活和分类，设置合理的学习率和迭代次数，获取优选的模型为预测模型；

S4：通过预测模型预测待处理的用户文本，获取预测的用户标签。本方案通过设置关键词库，获取一用户文本中与该关键词库中的关键词相匹配的近似词，确定与近似词相匹配的关键词以及确定一关键词匹配的n维向量，并通过m个所述n维向量确定特征矩阵，避免直接处理用户文本中的近似词出现的高离散性和多模态的问题，提高了处理用户文本获取用户标签的速度和精度。

衡量向量的关联度的方式有很多，而向量的关联度往往较为集中，不能较好地对关联度低的向量进行区分，也不能较好地体现较高关联度的向量，本发明实施例提供了一种衡量多维向量关联度的方法，定义L为关联度，关键词的n维向量为（X₁、……、X_i、……、X_n），近似词的n维向量为（Y₁、……、Y_i、……、Y_n）；

为了提高关键词库的容量，可以选取与用户标签关联性强的近似词作为关键词，具体的，将获取的用户标签与m个n维向量相匹配，获取关联度小于1的各个近似词，并确定为近似词集；

将所述交集对应的近似词更新为所述关键词库中的关键词。

利用扩充容量后的关键词库中的关键词来获取用户文本中的近似词，覆盖的精度和广度为提高，进而有助于在用户文本整体的基础上去理解语义和用户标签，请参阅图2，本发明的另一实施例还提供一种用户标签的预测方法，还包括：

S5：通过更新后的关键词库中的关键词，确定用户文本中更新后的各个近似词汇；

S6：按照关联度的大小，获取排名前m的近似词所对应的更新后的关键词，并确定所述更新后的关键词匹配的n维向量，通过m个所述n维向量确定更新后的特征矩阵；

S7：将多个用户文本分别对应的更新后的特征矩阵输入神经网络进行训练，获取更新后的预测模型；

S8：通过所述更新后的预测模型预测待处理的用户文本，获取更新后的用户标签。

请参阅图3，本发明实施例提供一种用户标签的预测系统，包括：

所述预处理模块、所述模型模块以及所述处理模块之间信号连接。本方案通过设置关键词库，获取一用户文本中与该关键词库中的关键词相匹配的近似词，确定与近似词相匹配的关键词以及确定一关键词匹配的n维向量，并通过m个所述n维向量确定特征矩阵，避免直接处理用户文本中的近似词出现的高离散性和多模态的问题，提高了处理用户文本获取用户标签的速度和精度。

将所述交集对应的近似词更新为所述关键词库中的关键词。

本发明实施例提供一种电子设备，包括：一个或多个处理器；和其上存储有指令的一个或多个机器可读介质，当所述一个或多个处理器执行时，使得所述电子设备执行一个或多个所述的方法。本发明可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本发明实施例还提供一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得设备执行中一个或多个所述的方法。本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种用户标签的预测方法，其特征在于，包括：

通过预测模型预测待处理的用户文本，获取预测的用户标签；

定义L为关联度，关键词的n维向量为(X₁、……、X_i、……、X_n)，近似词的n维向量为(Y₁、……、Y_i、……、Y_n)；

当X_i和Y_i不相等时，关联度的数学表达为：

当X_i＝Y_i时，关联度为1。

2.根据权利要求1所述的用户标签的预测方法，其特征在于，将获取的用户标签与m个n维向量相匹配，获取关联度小于1的各个近似词，并确定为近似词集；

将获取一用户标签的各个近似词集，并从各个所述近似词集中确定交集；

将所述交集对应的近似词更新为所述关键词库中的关键词。

3.根据权利要求2所述的用户标签的预测方法，其特征在于，包括：

通过更新后的关键词库中的关键词，确定更新后的用户文本中的各个近似词汇；

4.一种用户标签的预测系统，其特征在于，包括：

预处理模块，用于获取用户文本集和预设的关键词库，所述用户文本集中包括多个用户文本，所述关键词库包括多个关键词，通过关键词获取一用户文本中的各个近似词，按照关联度的大小获取排名前m的近似词所对应的关键词，并确定所述对应的关键词匹配的n维向量，通过m个所述n维向量确定特征矩阵，其中，m和n均为正整数，定义L为关联度，关键词的n维向量为(X₁、……、X_i、……、X_n)，近似词的n维向量为(Y₁、……、Y_i、……、Y_n)；

当X_i和Y_i不相等时，关联度的数学表达为：

当X_i＝Y_i时，关联度为1；

5.根据权利要求4所述的用户标签的预测系统，其特征在于，预处理模块将获取的用户标签与m个n维向量相匹配，获取关联度小于1的各个近似词，并确定为近似词集；

将所述交集对应的近似词更新为所述关键词库中的关键词。

6.根据权利要求5所述的用户标签的预测系统，其特征在于，模型模块通过更新后的关键词库中的关键词，确定更新后的用户文本中的各个近似词汇；按照关联度的大小，获取排名前m的近似词所对应的更新后的关键词，并确定所述更新后的关键词匹配的n维向量，通过m个所述n维向量确定更新后的特征矩阵；将多个用户文本分别对应的更新后的特征矩阵输入神经网络进行训练，获取更新后的预测模型；

7.一种电子设备，其特征在于，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当所述一个或多个处理器执行时，使得所述电子设备执行如权利要求1-3中任一所述的方法。

8.一种机器可读介质，其特征在于，其上存储有指令，当由一个或多个处理器执行时，使得设备执行如权利要求1-3中任一所述的方法。