CN113254657B

CN113254657B - 一种用户数据的分类方法及系统

Info

Publication number: CN113254657B
Application number: CN202110765316.XA
Authority: CN
Inventors: 姚娟娟; 钟南山
Original assignee: Mingpinyun Beijing Data Technology Co Ltd
Current assignee: Shanghai Mingping Medical Data Technology Co ltd
Priority date: 2021-07-07
Filing date: 2021-07-07
Publication date: 2021-11-19
Anticipated expiration: 2041-07-07
Also published as: CN113254657A

Abstract

本发明提供一种用户数据的分类方法及系统，用户数据的分类方法包括：获取用户文本集以及关键词库；通过所述关键词库中的关键词确定一用户文本中的命中词汇，并获取命中词汇的编码；通过所述命中词汇的编码确定特征矩阵；将各个用户文本相对应的特征矩阵分别输入神经网络中进行训练，获取分类模型；将待处理的用户文本输入到所述分类模型中，获取分类标签。本方案通过预设关键词库的方式，确定关键词，进而确定一用户文本中的命中词汇，通过神经网络的训练和学习，建立用户文本、命中词汇和分类标签之间的对应关系，进而通过分类模型对待处理的用户文本进行分类，提高了分类的精确性和效率。

Description

一种用户数据的分类方法及系统

技术领域

本发明涉及自然语言处理技术领域，特别是涉及一种用户数据的分类方法及系统。

背景技术

随着社会和经济的不断发展，用户的需求朝向精细化和细分化的发展方向，而用户受限制于自身的知识结构和专业认识，往往不能对自身的需求做出明确的分类认识，进而造成用户实际需求和选择的支持服务不匹配的问题出现，目前，通过用户自述的方式进行人工分类，一方面，用户自述往往不够精确，另一方面，人工分类的方式效率较低。

发明内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供一种用户数据的分类方法及系统，用于解决现有技术中的用户数据分类不便的问题。

为实现上述目的及其他相关目的，本发明提供一种用户数据的分类方法，包括：

获取用户文本集以及关键词库，所述用户文本集包括多个用户文本，所述关键词库包括多个关键词；

通过所述关键词库中的关键词确定一用户文本中的命中词汇，并获取命中词汇的编码；

通过所述命中词汇的编码确定特征矩阵；

将各个用户文本相对应的特征矩阵分别输入神经网络中进行训练，获取分类模型；

将待处理的用户文本输入到所述分类模型中，获取分类标签。

可选的，通过所述命中词汇的编码确定特征矩阵的步骤包括：

所述特征矩阵的尺寸为m×n，所述命中词汇的编码的长度为n，所述命中词汇的数量为t，m、n和t均为正整数；

当t≥m时，随机选取m个命中词汇的编码载入到所述特征矩阵中；

当t＜m时，选取t个命中词汇的编码载入到所述特征矩阵的前t行中，所述特征矩阵的t+1行至m行进行常数填充。

可选的，还包括：

通过所述关键词库中的关键词和预设相似度确定所述用户文本中的多个相似词汇，通过多个所述相似词汇确定该用户文本的相似词汇集；

获取一分类标签对应的各个相似词汇集；

确定各个相似词汇集中的相似词汇的交集，并将所述交集对应的相似词汇转化为所述关键词，并在所述关键词库中进行更新。

可选的，包括：

通过更新后的关键词库中的关键词，确定更新后的用户文本中的命中词汇，并获取更新后的命中词汇的编码；

通过所述更新后的命中词汇的编码，确定更新后的特征矩阵；

将各个用户文本相对应的更新后的特征矩阵分别输入神经网络中进行训练，获取更新后的分类模型；

将待处理的用户文本输入到更新后的所述分类模型中，获取更新后的分类标签。

可选的，所述相似词汇的获取步骤包括：

所述预设相似度为编码相同的比例，通过将所述用户文本中的单词进行编码，确定大于或者等于所述预设相似度的用户文本中的单词的词组，并将所述用户文本中的单词的词组确定为相似词汇。

可选的，当t≥m时，从t个命中词汇的编码中随机选取m个命中词汇的编码，并进行遍历，获取

种m个命中词汇的编码；将

种m个命中词汇的编码分别载入到特征矩阵中。

一种用户数据的分类系统，包括：

预处理模块，获取用户文本集以及关键词库，所述用户文本集包括多个用户文本，所述关键词库包括多个关键词，通过所述关键词库中的关键词确定一用户文本中的命中词汇，并获取命中词汇的编码，通过所述命中词汇的编码确定特征矩阵；

模型模块，将各个用户文本相对应的特征矩阵分别输入神经网络中进行训练，获取分类模型；

处理模块，将待处理的用户文本输入到所述分类模型中，获取分类标签；

所述预处理模块、所述模型模块和所述处理模块信号连接。

可选的，所述特征矩阵的尺寸为m×n，所述命中词汇的编码的长度为n，所述命中词汇的数量为t，m、n和t均为正整数；

当t≥m时，所述预处理模块随机选取m个命中词汇的编码载入到所述特征矩阵中；

当t＜m时，所述预处理模块选取t个命中词汇的编码载入到所述特征矩阵的前t行中，所述特征矩阵的t+1行至m行进行常数填充。

一种电子设备，包括：

一个或多个处理器；和其上存储有指令的一个或多个机器可读介质，当所述一个或多个处理器执行时，使得所述电子设备执行任一所述的方法。

一种机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得设备执行任一所述的方法。

如上所述，本发明的用户数据的分类方法及系统，具有以下有益效果：

本方案通过预设关键词库的方式，确定关键词，进而确定一用户文本中的命中词汇，通过神经网络的训练和学习，建立用户文本、命中词汇和分类标签之间的对应关系，进而通过分类模型对待处理的用户文本进行分类，提高了分类的精确性和效率。

附图说明

图1显示为本发明实施例的用户数据的分类方法的流程示意图。

图2显示为本发明另一实施例的用户数据的分类方法的流程示意图。

图3显示为本发明实施例的用户数据的分类系统的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

需要说明的是，本实施例中所提供的图示仅以示意方式说明本发明的基本构想，遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。本说明书所附图式所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。同时，本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

随着用户需求的精细化，根据用户数据进行分类能够为客户提供定制化的服务，提高服务品质和效率，本发明实施例提供一种用户数据的分类方法，包括：

S1：获取用户文本集以及关键词库，所述用户文本集包括多个用户文本，所述关键词库包括多个关键词，用户文本集可以从用户登记的历史信息中获取，也可以通过用户问卷调查的方式获取用户自述数据，用户文本集包括多个不同的用户文本，用户文本记载有与用户细分需求相关联的关键词以及其他关联信息，通过预设与分类标签关联性较强的关键词，获取关键词库；

S2：通过所述关键词库中的关键词确定一用户文本中的命中词汇，并获取命中词汇的编码，例如，该关键词包括头疼、发热、腹泻、咳嗽、流涕等等，又例如，口腔溃疡、皮疹、发炎等等；

S3：通过所述命中词汇的编码确定特征矩阵，可以通过语料库获取命中词汇对应在该语料库中的编码，将多个命中词汇的编码汇集成特征矩阵；

S4：将各个用户文本相对应的特征矩阵分别输入神经网络中进行训练，经过多次迭代，通过准确率、召回率等指标获取优选的模型，确定为分类模型；

S5：将待处理的用户文本输入到所述分类模型中，获取分类标签。本方案通过预设关键词库的方式，确定关键词，进而确定一用户文本中的命中词汇，通过神经网络的训练和学习，建立用户文本、命中词汇和分类标签之间的对应关系，进而通过分类模型对待处理的用户文本进行分类，提高了分类的精确性和效率。

在实际的分类预测过程中，往往因为用户文本的差异，例如，用户表达能力差异，导致用户同义词、近义词的使用差异，又例如，用户的专业知识匮乏，表达意思的精确性较差，或者，其他原因导致用户文本中命中词汇数量也有较大的差异，为了保证特征矩阵能够承载更多的特征信息，以及保证承载的特征信息的精确性，通过所述命中词汇的编码确定特征矩阵的步骤包括：

当t≥m时，随机选取m个命中词汇的编码载入到所述特征矩阵中，此时，用户文本中会出现较多的命中词汇，随机选取m个命中词汇能够一定程度上反应出该用户文本承载的特征信息；

当t＜m时，选取t个命中词汇的编码载入到所述特征矩阵的前t行中，所述特征矩阵的t+1行至m行进行常数填充，此时，用户文本中出现的命中词汇不足，为避免出现噪声信号的干扰，可将特征矩阵的t+1行至m行进行常数填充，例如，可以进行0填充，提高前t行特征矩阵的元素对分类结果的影响权重，提高分类的精确性。

确定相似词汇的过程，实质上是确定近义词或者同义词的过程，而通过语料库中编码的近似度能够一定程度上反应相似词汇与关键词之间的近似程度，为了避免关键词库的容量交底，无法较好地覆盖用户文本中关键信息，因此，提出了一种自更新关键词库的方法，该方法包括：

获取一分类标签对应的各个相似词汇集；

确定各个相似词汇集中的相似词汇的交集，并将所述交集对应的相似词汇转化为所述关键词，并在所述关键词库中进行更新，各个相似词汇集中的相似词汇的交集与分类标签之间的联系紧密，因此，可将该交集中的相似词汇更新为关键词，提高了关键词库的容量，也提高了关键词库的精确性。

简单的关键词库对分类结果会产生较大的误差，因此通过不断的更新关键词库中的关键词能够更加精确地反馈出用户文本中的关键信息，较大的、精确的关键词库能够反馈到模型的训练过程中，能够提高分类模型的精确性，请参阅图2，本发明还提供一种用户数据的分类方法，对关键词库进行更新，并对分类模型进行优化，具体的，其步骤包括：

S6：通过更新后的关键词库中的关键词，确定更新后的用户文本中的命中词汇，并获取更新后的命中词汇的编码，在保证关键词精确性的情况下，扩大了关键词库的容量，能够在用户文本中覆盖更多的命中词汇；

S7：通过所述更新后的命中词汇的编码，确定更新后的特征矩阵，更多的命中词汇获取的特征举证承载的特征信息也更多；

S8：将各个用户文本相对应的更新后的特征矩阵分别输入神经网络中进行训练，获取更新后的分类模型；

S9：将待处理的用户文本输入到更新后的所述分类模型中，获取更新后的分类标签。

在实施过程中，神经网络包括输入层、隐藏层和输出层，为了便于进行分类，获取精确的分类标签，所述输出层的激活函数可以选取Sigmoid函数，Sigmoid函数的数学表达为：

其中，x为输入量，S（x）为输出量。

在隐藏层中可以包括多层神经网络，在多次迭代获取分类模型的过程中，可以采用交叉熵损失函数对神经网络模型进行训练，学习率可以设置为0.05，迭代次数可以选取1000次。

在一些实施过程中，所述相似词汇的获取步骤包括：

种m个命中词汇的编码；将

种m个命中词汇的编码分别载入到特征矩阵中。

请参阅图3，本发明另一实施例还提供一种用户数据的分类系统，包括：

所述预处理模块、所述模型模块和所述处理模块信号连接。本方案通过预设关键词库的方式，确定关键词，进而确定一用户文本中的命中词汇，通过神经网络的训练和学习，建立用户文本、命中词汇和分类标签之间的对应关系，进而通过分类模型对待处理的用户文本进行分类，提高了分类的精确性和效率。

可选的，还包括：

获取一分类标签对应的各个相似词汇集；

可选的，包括：

可选的，所述相似词汇的获取步骤包括：

种m个命中词汇的编码；将

种m个命中词汇的编码分别载入到特征矩阵中。

本发明实施例提供一种电子设备，包括：一个或多个处理器；和其上存储有指令的一个或多个机器可读介质，当所述一个或多个处理器执行时，使得所述电子设备执行一个或多个所述的方法。本发明可用于众多通用或专用的计算系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

本发明实施例还提供一个或多个机器可读介质，其上存储有指令，当由一个或多个处理器执行时，使得设备执行中一个或多个所述的方法。本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本发明，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种用户数据的分类方法，其特征在于，包括：

通过所述命中词汇的编码确定特征矩阵；

将待处理的用户文本输入到所述分类模型中，获取分类标签；

获取一分类标签对应的各个相似词汇集；

确定各个相似词汇集中的相似词汇的交集，并将所述交集对应的相似词汇转化为所述关键词，并在所述关键词库中进行更新；

2.根据权利要求1所述的用户数据的分类方法，其特征在于，通过所述命中词汇的编码确定特征矩阵的步骤包括：

3.根据权利要求1所述的用户数据的分类方法，其特征在于，所述相似词汇的获取步骤包括：

4.根据权利要求2所述的用户数据的分类方法，其特征在于，当t≥m时，从t个命中词汇的编码中随机选取m个命中词汇的编码，并进行遍历，获取

种m个命中词汇的编码；将

种m个命中词汇的编码分别载入到特征矩阵中。

5.一种用户数据的分类系统，其特征在于，包括：

预处理模块，获取用户文本集以及关键词库，所述用户文本集包括多个用户文本，所述关键词库包括多个关键词，通过所述关键词库中的关键词确定一用户文本中的命中词汇，并获取命中词汇的编码，通过所述命中词汇的编码确定特征矩阵，通过所述关键词库中的关键词和预设相似度确定所述用户文本中的多个相似词汇，通过多个所述相似词汇确定该用户文本的相似词汇集，获取一分类标签对应的各个相似词汇集，确定各个相似词汇集中的相似词汇的交集，并将所述交集对应的相似词汇转化为所述关键词，并在所述关键词库中进行更新；

处理模块，将待处理的用户文本输入到所述分类模型中，获取分类标签，通过更新后的关键词库中的关键词，确定更新后的用户文本中的命中词汇，并获取更新后的命中词汇的编码，通过所述更新后的命中词汇的编码，确定更新后的特征矩阵，将各个用户文本相对应的更新后的特征矩阵分别输入神经网络中进行训练，获取更新后的分类模型，将待处理的用户文本输入到更新后的所述分类模型中，获取更新后的分类标签；

所述预处理模块、所述模型模块和所述处理模块信号连接。

6.根据权利要求5所述的用户数据的分类系统，其特征在于，所述特征矩阵的尺寸为m×n，所述命中词汇的编码的长度为n，所述命中词汇的数量为t，m、n和t均为正整数；

7.一种电子设备，其特征在于，包括：

一个或多个处理器；和

其上存储有指令的一个或多个机器可读介质，当所述一个或多个处理器执行时，使得所述电子设备执行如权利要求1-6中任一所述的方法。

8.一种机器可读介质，其特征在于，其上存储有指令，当由一个或多个处理器执行时，使得设备执行如权利要求1-6中任一所述的方法。