CN115470346A

CN115470346A - 一种用户标签信息的分类方法、系统及介质

Info

Publication number: CN115470346A
Application number: CN202211033284.5A
Authority: CN
Inventors: 刘敏; 李创林; 许东武
Original assignee: Guangdong Infinite Information Technology Co ltd
Current assignee: Guangdong Infinite Information Technology Co ltd
Priority date: 2022-08-26
Filing date: 2022-08-26
Publication date: 2022-12-13

Abstract

本发明公开了一种用户标签信息的分类方法、系统及介质，方法包括：获取目标对象的标签文本；对所述标签文本进行清洗及序列化处理，得到词向量矩阵；将所述词向量矩阵中的各个词向量依次输入LSTM分类器，结合训练集进行迭代分类预测，得到分类标签信息；输出保存符合预设条件的分类标签信息。本发明通过对标签文本的清洗及序列化处理，方便数据的规模化/量化处理；进而使用LSTM分类器，通过训练集进行迭代分类预测，能够高效计算输入标签与模型内标签匹配度，进而筛选符合预设条件的分类标签信息，提高了基于标签信息的数据挖掘和分析的准确性，可广泛应用于信息数据处理技术领域。

Description

一种用户标签信息的分类方法、系统及介质

技术领域

本发明涉及信息数据处理技术领域，尤其是一种用户标签信息的分类方法、系统及介质。

背景技术

在不同的场景或者渠道的用户标签信息中存在着较大的差异，主要有文本描述、关键词和问答对话等形式的用户标签信息，主要集中存储在某一字段下面，目前主要采用关键词的模式进行模糊匹配，关键词需要后期手动维护，如某一产品新增新的文本内容，则需要做关键词库的维护更新。如文本内信息中存在问答或者长文本内容，则无法匹配到对应的关键词。

关键词模糊匹配过程中只能匹配到单一的标签，属于粗粒度分类。但保险产品通常存在多标签、细粒度和各种文本描述与问答方式作为标签存储。在后续使用中根据需求方提供标签时往往只能匹配到单一的标签，可能存在与需求方相关度高的标签无法获取等，且数据量大容易导致匹配准确性低和性能消耗大。

发明内容

有鉴于此，本发明实施例提供一种准确度高的，一种用户标签信息的分类方法、系统及介质。

一方面，本发明的实施例提供了一种用户标签信息的分类方法，包括：

获取目标对象的标签文本；

对所述标签文本进行清洗及序列化处理，得到词向量矩阵；

将所述词向量矩阵中的各个词向量依次输入LSTM分类器，结合训练集进行迭代分类预测，得到分类标签信息；

输出保存符合预设条件的分类标签信息。

可选地，所述标签文本包括第一标签文本和第二标签文本，所述获取目标对象的标签文本，包括：

获取目标对象的注册数据中信息标签字段下的第一标签文本和文本描述数据中的第二标签文本；

通过预设数据表整理汇总所述第一标签文本和所述第二标签文本。

可选地，所述对所述标签文本进行清洗及序列化处理，得到词向量矩阵，包括：

通过正则匹配方式对所述标签文本进行规范化处理，清洗所述标签文本；

对清洗完成的标签文本进行分词处理，结合加权算法构建得到文本特征向量集；

通过编解码模型对所述文本特征向量集进行序列化操作，得到词向量矩阵。

可选地，所述对清洗完成的标签文本进行分词处理，结合加权算法构建得到文本特征向量集，包括：

通过jieba分词器对清洗完成的标签文本进行分词处理，结合TF-IDF算法构建得到文本特征向量集。

可选地，所述编解码模型包括编码器和解码器，所述通过编解码模型对所述文本特征向量集进行序列化操作，得到词向量矩阵，包括：

通过所述编码器和所述解码器对所述文本特征向量集进行编解码处理；

通过seq2seq嵌入方法对所述编解码处理后的文本特征向量集进行迭代循环，得到词向量矩阵。

可选地，所述将所述词向量矩阵中的各个词向量依次输入LSTM分类器，结合训练集进行迭代分类预测，得到分类标签信息，包括：

以所述词向量矩阵中的第一个词向量作为当前词向量；

输入当前词向量至LSTM分类器，通过所述LSTM分类器对当前词向量进行分类预测，得到分类标签信息；

通过余弦相似度计算原理，计算得到所述分类标签信息中各个标签的相关系数；

将相关系数小于预设阈值的标签放入训练集训练得到训练词向量；

将所述训练词向量嵌入下一个词向量做为当前词向量，然后返回所述输入当前词向量至LSTM分类器，通过所述LSTM分类器对当前词向量进行分类预测，得到分类标签信息这一步骤，直至所述词向量矩阵完成分类预测。

可选地，所述输出保存符合预设条件的分类标签信息，包括：

输出相关系数大于预设阈值的标签数据至业务对象；

或，保存相关系数大于预设阈值的标签数据至标签库。

另一方面，本发明的实施例提供了一种用户标签信息的分类系统，包括：

第一模块，用于获取目标对象的标签文本；

第二模块，用于对所述标签文本进行清洗及序列化处理，得到词向量矩阵；

第三模块，用于将所述词向量矩阵中的各个词向量依次输入LSTM分类器，结合训练集进行迭代分类预测，得到分类标签信息；

第四模块，用于输出保存符合预设条件的分类标签信息。

另一方面，本发明的实施例提供了一种电子设备，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

另一方面，本发明的实施例提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如前面所述的方法。

本发明实施例还公开了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

本发明实施例首先获取目标对象的标签文本；对所述标签文本进行清洗及序列化处理，得到词向量矩阵；将所述词向量矩阵中的各个词向量依次输入LSTM分类器，结合训练集进行迭代分类预测，得到分类标签信息；输出保存符合预设条件的分类标签信息。本发明通过对标签文本的清洗及序列化处理，方便数据的规模化/量化处理；进而使用LSTM分类器，通过训练集进行迭代分类预测，能够高效计算输入标签与模型内标签匹配度，进而筛选符合预设条件的分类标签信息，提高了基于标签信息的数据挖掘和分析的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的用户标签信息的分类方法的总体流程示意图；

图2为本发明实施例提供的用户标签信息的分类方法的整体流程示意图；

图3为本发明实施例提供的LSTM分类器的分类流程示意图；

图4为本发明实施例提供的用户标签信息的分类系统的示意图；

图5为本发明实施例提供的电子设备的示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

需要说明的是，虽然在系统示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于系统中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

基于在不同的场景中获取的保险产品的用户信息中存在诸多的标签信息，不同产品的各标签可能存在诸多的共性问题，需要将这些信息进行去标签化分类，提高标签的准确性，用于后续用户数据挖掘、分析等。

基于公司针对用户标签信息进行数据挖掘中提取符合业务需求的用户人群，需要将收集的用户源标签信息中提取符合输入标签信息的数据，将标签信息数据输入到多标签分类算法模型中，得到与标签信息系统中标签相关系数值。如标签相关系数大于设定阈值时，则将该数据归类到标签库并输出给业务方。

有鉴于此，本发明的实施例提供了一种用户标签信息的分类方法、系统及介质，该方法包括，首先获取目标对象的标签文本；对所述标签文本进行清洗及序列化处理，得到词向量矩阵；将所述词向量矩阵中的各个词向量依次输入LSTM分类器，结合训练集进行迭代分类预测，得到分类标签信息；输出保存符合预设条件的分类标签信息。本发明通过对标签文本的清洗及序列化处理，方便数据的规模化/量化处理；进而使用LSTM分类器，通过训练集进行迭代分类预测，能够高效计算输入标签与模型内标签匹配度，进而筛选符合预设条件的分类标签信息，提高了基于标签信息的数据挖掘和分析的准确性。

下面结合附图，对本发明实施例作进一步阐述。

参考图1和图2，图1为本发明实施例提出的光缆检测设备控制方法的步骤流程示意图，包括但不限于步骤S100至S600：

S100、获取目标对象的标签文本；

需要说明的是，标签文本包括第一标签文本和第二标签文本。首先获取目标对象的注册数据中信息标签字段下的第一标签文本和文本描述数据中的第二标签文本；进而通过预设数据表整理汇总第一标签文本和第二标签文本。

具体地，将不同场景、渠道的用户注册数据中用户信息标签字段存在标签值、用户文本描述的数据，抽取到数据仓库，并将各字段下面的标签值转存在同一数据表内。

S200、对标签文本进行清洗及序列化处理，得到词向量矩阵；

需要说明的是，首先通过正则匹配方式对标签文本进行规范化处理，清洗标签文本；对清洗完成的标签文本进行分词处理，结合加权算法构建得到文本特征向量集；通过编解码模型对文本特征向量集进行序列化操作，得到词向量矩阵。一些实施例中，通过jieba分词器对清洗完成的标签文本进行分词处理，结合TF-IDF算法构建得到文本特征向量集。一些实施例中，通过编码器和解码器对文本特征向量集进行编解码处理；通过seq2seq嵌入方法对编解码处理后的文本特征向量集进行迭代循环，得到词向量矩阵。

具体地，数据清洗，利用正则匹配方式将标签值进行规范化处理，去除非法字符、乱码等；进而采用jieba对标签值进行分词处理，利用TF-IDF算法进行构建文本特征向量；然后采用seq2seq框架(属于manytomany结构，同时这种结构又叫Encoder-Decoder‘编解码’模型)将文本特征向量作为输入进行序列化操作(输入是每个用户的标签的文本特征向量，输出一系列的文本标签预测，处理步骤：先用Encoder‘编码器’将输入编码映射到语义空间，得到一个个固定维数的向量，这个向量就表示输入的语义。然后使用Decoder‘解码器’进行解码，便获得所需的输出)，利用seq2seq的嵌入方法将上一步的输出作为输入迭代到下一步的操作中不断循环至结束，输出一个词向量矩阵，包含各个输入标签对应的词表信息。

S300、将词向量矩阵中的各个词向量依次输入LSTM分类器，结合训练集进行迭代分类预测，得到分类标签信息；

需要说明的是，首先以词向量矩阵中的第一个词向量作为当前词向量；输入当前词向量至LSTM分类器，通过LSTM分类器对当前词向量进行分类预测，得到分类标签信息；通过余弦相似度计算原理，计算得到分类标签信息中各个标签的相关系数；将相关系数小于预设阈值的标签放入训练集训练得到训练词向量；将训练词向量嵌入下一个词向量做为当前词向量，然后返回输入当前词向量至LSTM分类器，通过LSTM分类器对当前词向量进行分类预测，得到分类标签信息这一步骤，直至词向量矩阵完成分类预测。

具体地，参照图3，LSTM分类器在一次预测中采取原始文本序列和上次预测结果小于设定阈值的训练集标签进行嵌入操作，获得词向量和训练集结果向量序列，其中训练集的结果向量序列基于上一次进行分类后不符合阈值的结果集序列，用作下一次分类时作为输入部分与当前输入词向量进行分类预测，即当不符合阈值的标签进入训练集进行训练获取到对应的训练结果(如yt-1)会与本次xt词向量进行嵌入操作后进行下一次的分类，通过这种方法不断进行迭代到结束。其中，LSTM输出每个用户的分类标签信息后可能出现(标签1，标签2，标签3，.....)，利用余弦相似度计算原理对标签中两两之间的标签信息计算相关系数，进而设定阈值与相关系数进行比较。

其中，分类器(LSTM(长短期记忆)模型)，LSTM通过“门”的设计结构来去除或者增加“细胞状态”的信息,实现了对重要内容的保留和对不重要内容的去除，通过Sigmoid层输出一个0到1之间的概率值，描述每个部分有多少量可以通过，0表示“不允许任务变量通过”，1表示“运行所有变量通过”，通过这种方式来提高精度和迭代的效率。

在实际应用中，一个用户诸多标签或者问答中可能存在相关性，如后面的问题与答案的设计可能都会受到前一个问题或者答案的影响，因此，在处理时就需要把它们关联起来看待，于是先针对逐个进行标签分类预测，如果遇到不符合设定阈值的则训练后继续作为输入进行序列化参与到下一个问题的词向量序列化，不断循环。因为考虑到小于阈值的标签也是可能会影响到后面的标签，所以将这部分进行训练后得到的结果也作为辅助下一次的预测，这样有助于提高准确率。即不能将一个用户的所有标签割裂出来，需要认为用户的标签或者问答内容是具有相关性。

S400、输出保存符合预设条件的分类标签信息；

具体地，基于上一步计算得到的相关系数，当相关系数大于阈值，则将对应部分数据存入标签库或者输出给业务方。

另一方面，参照图4，本发明的实施例提供了一种用户标签信息的分类系统100，包括：第一模块110用于获取目标对象的标签文本；第二模块120用于对标签文本进行清洗及序列化处理，得到词向量矩阵；第三模块130用于将词向量矩阵中的各个词向量依次输入LSTM分类器，结合训练集进行迭代分类预测，得到分类标签信息；第四模块140用于输出保存符合预设条件的分类标签信息。

本发明方法实施例的内容均适用于本系统实施例，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

参照图5，本发明实施例的另一方面还提供了一种电子设备200，包括处理器210以及存储器220；

所述存储器用于存储程序；

所述处理器执行所述程序实现如前面所述的方法。

本发明方法实施例的内容均适用于本电子设备实施例，本电子设备实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

本发明实施例的另一方面还提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如前面所述的方法。

本发明方法实施例的内容均适用于本计算机可读存储介质实施例，本计算机可读存储介质实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法达到的有益效果也相同。

综上所述，本发明实施例针对保险产品用户信息中标签进行分类处理，适用标签类目多，且可以高效计算输入标签与模型内标签匹配度，判定各个标签中的相关性，进行标签分类汇总，提供数据挖掘和分析的准确性。

在一些可选择的实施例中，在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如，取决于所涉及的功能/操作，连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外，在本发明的流程图中所呈现和描述的实施例以示例的方式被提供，目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的，其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。

此外，虽然在功能性模块的背景下描述了本发明，但应当理解的是，除非另有相反说明，所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中，或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是，有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说，考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下，在工程师的常规技术内将会了解该模块的实际实现。因此，本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是，所公开的特定概念仅仅是说明性的，并不意在限制本发明的范围，本发明的范围由所附权利要求书及其等同方案的全部范围来决定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行装置、装置或设备(如基于计算机的装置、包括处理器的装置或其他可以从指令执行装置、装置或设备取指令并执行指令的装置)使用，或结合这些指令执行装置、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行装置、装置或设备或结合这些指令执行装置、装置或设备而使用的装置。

计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims

1.一种用户标签信息的分类方法，其特征在于，包括：

获取目标对象的标签文本；

对所述标签文本进行清洗及序列化处理，得到词向量矩阵；

输出保存符合预设条件的分类标签信息。

2.根据权利要求1所述的一种用户标签信息的分类方法，其特征在于，所述标签文本包括第一标签文本和第二标签文本，所述获取目标对象的标签文本，包括：

3.根据权利要求1所述的一种用户标签信息的分类方法，其特征在于，所述对所述标签文本进行清洗及序列化处理，得到词向量矩阵，包括：

4.根据权利要求3所述的一种用户标签信息的分类方法，其特征在于，所述对清洗完成的标签文本进行分词处理，结合加权算法构建得到文本特征向量集，包括：

5.根据权利要求3所述的一种用户标签信息的分类方法，其特征在于，所述编解码模型包括编码器和解码器，所述通过编解码模型对所述文本特征向量集进行序列化操作，得到词向量矩阵，包括：

6.根据权利要求1所述的一种用户标签信息的分类方法，其特征在于，所述将所述词向量矩阵中的各个词向量依次输入LSTM分类器，结合训练集进行迭代分类预测，得到分类标签信息，包括：

以所述词向量矩阵中的第一个词向量作为当前词向量；

7.根据权利要求6所述的一种用户标签信息的分类方法，其特征在于，所述输出保存符合预设条件的分类标签信息，包括：

输出相关系数大于预设阈值的标签数据至业务对象；

或，保存相关系数大于预设阈值的标签数据至标签库。

8.一种用户标签信息的分类系统，其特征在于，包括：

第一模块，用于获取目标对象的标签文本；

第四模块，用于输出保存符合预设条件的分类标签信息。

9.一种电子设备，包括处理器以及存储器；

所述存储器用于存储程序；

所述处理器执行所述程序实现如权利要求1至7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有程序，所述程序被处理器执行实现如权利要求1至7中任一项所述的方法。