CN111325021A

CN111325021A - 识别微信公众号所属业态的方法及装置

Info

Publication number: CN111325021A
Application number: CN202010097890.8A
Authority: CN
Inventors: 唐积强; 吴震; 马秀娟; 吴莉莉; 王锟; 李焱余; 霍丽杰; 胡晓光; 刘刚; 周洋
Original assignee: Shenzhen Surfilter Technology Development Co ltd; National Computer Network and Information Security Management Center
Current assignee: Shenzhen Surfilter Technology Development Co ltd; National Computer Network and Information Security Management Center
Priority date: 2020-02-17
Filing date: 2020-02-17
Publication date: 2020-06-23

Abstract

本发明提供一种识别微信公众号所属业态的方法及装置，包括：获取微信公众号的文本数据集，基于所述文本数据集进行BERT模型预训练，得到BERT中文词向量；从所述文本数据集中提取文本特征词，并基于所述BERT中文词向量对所述文本特征词进行向量化，得到字向量序列；将所述字向量序列输入LSTM‑CNN模型，得到所述LSTM‑CNN模型输出的目标特征向量；将所述目标特征向量输入softmax层，得到所述softmax层输出的概率预测向量；查找所述概率预测向量中的最大值，并以所述最大值对应的业态作为所述微信公众号的所属业态。通过本发明，实现了高精度识别微信公众号的所属业态。

Description

识别微信公众号所属业态的方法及装置

技术领域

本发明涉及深度学习技术领域，尤其涉及一种识别微信公众号所属业态的方法及装置。

背景技术

依托互联网的发展，微信作为“社交+信息”的代名词，已逐步成为人们获取信息的重要来源。尤其是微信公众号所具备的方便快捷性使得微信公众号成为新兴互联网金融交易模式的载体。这也充分迎合了移动互联网时代时间碎片化的特点，导致微盘、现金贷等以微信公众号为载体的交易平台层出不穷。如此一来，识别以微信公众号为载体的交易平台的细分业态对于互联网金融监管而言尤为重要。

现有技术中通常是基于机器学习的方法利用词袋模型对微信公众号的文本信息进行表示，从而识别微信公众号所属业态。但这种方式不能根据上下文信息对文本信息进行表征，且不能解决一词多义等问题，导致识别准确率低。

发明内容

本发明的主要目的在于提供一种识别微信公众号所属业态的方法及装置，旨在解决现有技术中对微信公众号所属业态进行识别的准确率较低的技术问题。

为实现上述目的，本发明实施例提供一种识别微信公众号所属业态的方法，所述识别微信公众号所属业态的方法包括：

获取微信公众号的文本数据集，基于所述文本数据集进行BERT模型预训练，得到BERT中文词向量；

从所述文本数据集中提取文本特征词，并基于所述BERT中文词向量对所述文本特征词进行向量化，得到字向量序列；

将所述字向量序列输入LSTM-CNN模型，得到所述LSTM-CNN模型输出的目标特征向量；

将所述目标特征向量输入softmax层，得到所述softmax层输出的概率预测向量；

查找所述概率预测向量中的最大值，并以所述最大值对应的业态作为所述微信公众号的所属业态。

可选的，所述获取微信公众号的文本数据集，基于所述文本数据集进行BERT模型预训练，得到BERT中文词向量包括：

获取微信公众号的简介文本以及微信公众号的推送文章的HTML源码；

对所述微信公众号的推送文章的HTML源码进行解析，得到微信公众号的推送文章文本，将所述简介文本以及推送文章文本作为微信公众号的文本数据集；

对所述文本数据集进行预处理，所述预处理包括剔除所述文本数据集中的无用字符、停用词；

基于所述经过预处理的文本数据集进行BERT模型预训练，取BERT模型的后4层隐藏层的权重平均值作为所述微信公众号的文本数据集对应的向量表示，生成BERT中文词向量。

可选的，所述从所述文本数据集中提取文本特征词，并基于所述BERT中文词向量对所述文本特征词进行向量化，得到字向量序列包括：

对所述文本数据集中微信公众号的简介文本进行切词以及剔除停用词处理，得到所述简介文本对应的第一文本特征词，并基于所述BERT中文词向量对所述第一文本特征词进行向量化，得到第一字向量序列；

对所述文本数据集中微信公众号的推送文章文本进行切词以及剔除停用词处理，得到待提取推送文章文本，通过TF-IDF技术从所述待提取推送文章文本中提取得到所述推送文章文本对应的第二文本特征词，并基于所述BERT中文词向量对所述第二文本特征词进行向量化，得到第二字向量序列。

可选的，所述LSTM-CNN模型包括LSTM模型以及CNN模型，所述将所述字向量序列输入LSTM-CNN模型，得到所述LSTM-CNN模型输出的目标特征向量包括：

将所述第一字向量序列输入所述LSTM模型，以供所述LSTM模型对所述第一字向量序列进行运算，得到所述LSTM模型输出的第一特征向量；

将所述第二字向量序列输入所述CNN模型，以供所述CNN模型对所述第二字向量序列进行运算，得到所述CNN模型输出的第二特征向量；

将所述第一特征向量与所述第二特征向量进行拼接，得到第三特征向量；

通过全连接层对所述第三特征向量进行线性降维，得到维数为2的目标特征向量。

可选的，所述LSTM-CNN模型中增加有dropout层以及earlystop机制，所述LSTM-CNN模型采用的损失函数为交叉熵，反向传播算法为adam优化算法。

此外，为实现上述目的，本发明实施例还提供一种识别微信公众号所属业态的装置，所述识别微信公众号所属业态的装置包括：

预训练模块，用于获取微信公众号的文本数据集，基于所述文本数据集进行BERT模型预训练，得到BERT中文词向量；

向量化模块，用于从所述文本数据集中提取文本特征词，并基于所述BERT中文词向量对所述文本特征词进行向量化，得到字向量序列；

第一输入模块，用于将所述字向量序列输入LSTM-CNN模型，得到所述LSTM-CNN模型输出的目标特征向量；

第二输入模块，用于将所述目标特征向量输入softmax层，得到所述softmax层输出的概率预测向量；

查找模块，用于查找所述概率预测向量中的最大值，并以所述最大值对应的业态作为所述微信公众号的所属业态。

可选的，所述预训练模块用于：

可选的，所述向量化模块，用于：

可选的，所述第一输入模块，用于：

本发明中，获取微信公众号的文本数据集，基于所述文本数据集进行BERT模型预训练，得到BERT中文词向量；从所述文本数据集中提取文本特征词，并基于所述BERT中文词向量对所述文本特征词进行向量化，得到字向量序列；将所述字向量序列输入LSTM-CNN模型，得到所述LSTM-CNN模型输出的目标特征向量；将所述目标特征向量输入softmax层，得到所述softmax层输出的概率预测向量；查找所述概率预测向量中的最大值，并以所述最大值对应的业态作为所述微信公众号的所属业态。通过本发明，训练阶段将BERT的整个模型进行迁移学习，生成文本在特定场景下的词向量，对网络语言等特殊文本进行有效表征，与LSTM-CNN模型结合进行特征融合，充分利用了CNN提取局部特征的优势以及LSTM提取具有记忆优势的上下文特征的优势，从而更好地表示文本的语义信息，实现了高精度识别微信公众号的所属业态。

附图说明

图1为本发明识别微信公众号所属业态的方法一实施例的流程示意图；

图2为本发明识别微信公众号所属业态的装置一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明识别微信公众号所属业态的方法一实施例的流程示意图。在一实施例中，识别微信公众号所属业态的方法包括：

步骤S10，获取微信公众号的文本数据集，基于所述文本数据集进行BERT模型预训练，得到BERT中文词向量；

本实施例中，微信公众号为当前需要对其所属业态进行识别的微信公众号。获取微信公众号的文本数据集即获取与该微信公众号相关的文本信息，例如微信公众号的文本数据集包括该微信公众号的简介文本以及该微信公众号发布过的文章等。获取微信公众号的文本数据集后，并利用文本数据集进行BERT模型预训练，得到微信公众号的文本数据集对应的BERT中文词向量。其中，BERT即Bidirectional Encoder Representations fromTransformers，是Google提出的通用预训练语言表示模型。

进一步地，一实施例中，步骤S10包括：

获取微信公众号的简介文本以及微信公众号的推送文章的HTML源码；对所述微信公众号的推送文章的HTML源码进行解析，得到微信公众号的推送文章文本，将所述简介文本以及推送文章文本作为微信公众号的文本数据集；对所述文本数据集进行预处理，所述预处理包括剔除所述文本数据集中的无用字符、停用词；基于所述经过预处理的文本数据集进行BERT模型预训练，取BERT模型的后4层隐藏层的权重平均值作为所述微信公众号的文本数据集对应的向量表示，生成BERT中文词向量。

本实施例中，微信公众号的文本数据集包括该微信公众号的简介文本以及推送文章文本。其中，简介文本可直接获取。获取推送文章文本的方式为：首先获取推送文章的HTML源码，然后对该HTML源码进行解析，从而得到推送文章文本。得到由简介文本以及推送文章文本构成的文本数据集后，首先对文本数据集进行预处理，预处理包括剔除所述文本数据集中的无用字符、停用词。其中，无用字符以及停用词根据实际需要进行设置，例如将“，”、“。”等标点符号设置为无用字符，将“啊”、“的”等字词设置为停用词。利用预处理好的文本数据集进行BERT模型预训练，取BERT模型的后4层隐藏层的权重平均值作为所述微信公众号的文本数据集对应的向量表示，生成BERT中文词向量，解决了一词多义、网络语言特征表示等问题。

步骤S20，从所述文本数据集中提取文本特征词，并基于所述BERT中文词向量对所述文本特征词进行向量化，得到字向量序列；

本实施例中，通过分词工具、剔除停用词等方式得到文本数据集的文本特征词，然后调用步骤S10得到的BERT中文词向量对文本特征词进行向量化，得到子向量序列。

进一步地，一实施例中，步骤S20包括：

本实施例中，针对于微信公众号的简介文本，利用分词工具进行切词、剔除停用词形成简介文本对应的第一文本特征词。然后调用步骤S10得到的BERT中文词向量对第一文本特征词进行向量化，得到第一字向量序列。

由于简介文本为短文本，文本特征具有稀疏性、不规则性。与传统的文本分类相比，每条简介文本中的特征很少，面临特征稀疏的问题，文本之间很少含有相同的特征。短文本不规则性，包含流行词汇较多，造成了噪声特征非常，这些特殊的性质为短文本分类任务增添了极大的困难。此外，文本特征具有稀疏性、不规则性使得短文本分类数据的噪声问题更为严重，噪声会对最后的分类结果产生严重的影响。单纯地从普通文本分类任务中移植的算法有时并不能得到很好的效果，我们必须要将更多的精力放在去除噪音数据上。因此，本实施例中，预处理过程包括对简介文本的规范性检查，在此过程中解决缺失项和重复项的问题。通过分词，去噪声，结合停用词表去除停用词，得到可以直接使用的数据格式。然后利用BERT模型训练的向量进行词表征。

本实施例中，针对于微信公众号的推送文章文本，利用分词工具进行切词、剔除停用词，再依据TF-IDF(term frequency–inverse document frequency，是一种用于信息检索与数据挖掘的常用加权技术。TF意思是词频Term Frequency，IDF意思是逆文本频率指数Inverse Document Frequency)进行提取，得到推送文章对应的第二文本特征词。然后调用步骤S10得到的BERT中文词向量对第二文本特征词进行向量化，得到第二字向量序列。

本实施例中，针对简介文本特征稀疏的问题，利用公众号推送文章文本以扩充分类任务的文本特征。微信公众号推送文章内容中存在较多的结构化或半结构化信息，广告信息等，可能会产太多噪音，这些对于特征提取来说都是需要过滤的。基于微信公众号推送文章内容这一特征，利用TF-IDF进行关键特征提取，能有效过滤无效信息。

步骤S30，将所述字向量序列输入LSTM-CNN模型，得到所述LSTM-CNN模型输出的目标特征向量；

本实施例中，将字向量序列输入LSTM-CNN模型后，LSTM-CNN模型对输入的字向量序列进行运算，从而得到LSTM-CNN模型输出的目标特征向量。

进一步地，一实施例中，所述LSTM-CNN模型包括LSTM模型以及CNN模型，步骤S30包括：

将所述第一字向量序列输入所述LSTM模型，以供所述LSTM模型对所述第一字向量序列进行运算，得到所述LSTM模型输出的第一特征向量；将所述第二字向量序列输入所述CNN模型，以供所述CNN模型对所述第二字向量序列进行运算，得到所述CNN模型输出的第二特征向量；将所述第一特征向量与所述第二特征向量进行拼接，得到第三特征向量；通过全连接层对所述第三特征向量进行线性降维，得到维数为2的目标特征向量。

本实施例中，将第一字向量序列作为LSTM模型的输入，利用LSTM模型对输入的第一字向量序列进行运算，得到的输出经过非线性激活层的运算后，得到具有记忆优势的上下文特征向量，即得到LSTM模型输出的第一特征向量。

本实施例中，将第二字向量序列作为CNN模型的输入。其中，CNN模型可以选用TextCNN模型。TextCNN模型进行卷积、激活、池化方法对输入的第二字向量序列进行运算，然后将得到的多维特征用Flatten层转化成一维特征，最终得到第二特征向量。此步骤是利用卷积神经网络提取局部特征。

得到LSTM模型输出的第一特征向量以及CNN模型输出的第二特征向量后，首先对这两个特征向量进行拼接，得到一个新的特征向量(即第三特征向量)，再经过全连接层对第三特征向量进行线性降维，最终得到维数为2的目标特征向量。其中，维数为2代表对应2个预测结果。

步骤S40，将所述目标特征向量输入softmax层，得到所述softmax层输出的概率预测向量；

本实施例中，将目标特征向量作为softmax层的输入，使得输入的目标特征向量中的每个实数被映射为0到1之间的实数，并且输出向量中所有实数之和为1，这些实数表示相应种类的概率大小，得到的输出为概率预测向量。

步骤S50，查找所述概率预测向量中的最大值，并以所述最大值对应的业态作为所述微信公众号的所属业态。

本实施例中，得到的概率预测向量中的每个概率值表示该微信公众号属于某种业态的概率大小，因此，查找概率预测向量中的最大值，以该最大值对应的业态作为微信公众号的所属业态。

进一步地，一实施例中，所述LSTM-CNN模型中增加有dropout层以及earlystop机制，所述LSTM-CNN模型采用的损失函数为交叉熵，反向传播算法为adam优化算法。

本实施例中，对LSTM-CNN模型进行编译，采用的损失函数为交叉熵，优化器为adam，指标为准确度。增加dropout层、earlystop机制，防止模型的过拟合。

本实施例中，获取微信公众号的文本数据集，基于所述文本数据集进行BERT模型预训练，得到BERT中文词向量；从所述文本数据集中提取文本特征词，并基于所述BERT中文词向量对所述文本特征词进行向量化，得到字向量序列；将所述字向量序列输入LSTM-CNN模型，得到所述LSTM-CNN模型输出的目标特征向量；将所述目标特征向量输入softmax层，得到所述softmax层输出的概率预测向量；查找所述概率预测向量中的最大值，并以所述最大值对应的业态作为所述微信公众号的所属业态。通过本实施例，训练阶段将BERT的整个模型进行迁移学习，生成文本在特定场景下的词向量，对网络语言等特殊文本进行有效表征，与LSTM-CNN模型结合进行特征融合，充分利用了CNN提取局部特征的优势以及LSTM提取具有记忆优势的上下文特征的优势，从而更好地表示文本的语义信息，实现了高精度识别微信公众号的所属业态。

参照图2，图2为本发明识别微信公众号所属业态的装置一实施例的功能模块示意图。一实施例中，识别微信公众号所属业态的装置包括：

预训练模块10，用于获取微信公众号的文本数据集，基于所述文本数据集进行BERT模型预训练，得到BERT中文词向量；

向量化模块20，用于从所述文本数据集中提取文本特征词，并基于所述BERT中文词向量对所述文本特征词进行向量化，得到字向量序列；

第一输入模块30，用于将所述字向量序列输入LSTM-CNN模型，得到所述LSTM-CNN模型输出的目标特征向量；

第二输入模块40，用于将所述目标特征向量输入softmax层，得到所述softmax层输出的概率预测向量；

查找模块50，用于查找所述概率预测向量中的最大值，并以所述最大值对应的业态作为所述微信公众号的所属业态。

进一步地，一实施例中，所述预训练模块10用于：

进一步地，一实施例中，所述向量化模块20，用于：

进一步地，一实施例中，所述第一输入模块30，用于：

本发明识别微信公众号所属业态的装置的具体实施例与上述识别微信公众号所属业态的方法的各个实施例基本相同，在此不做赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种识别微信公众号所属业态的方法，其特征在于，所述识别微信公众号所属业态的方法包括：

2.如权利要求1所述的识别微信公众号所属业态的方法，其特征在于，所述获取微信公众号的文本数据集，基于所述文本数据集进行BERT模型预训练，得到BERT中文词向量包括：

3.如权利要求1所述的识别微信公众号所属业态的方法，其特征在于，所述从所述文本数据集中提取文本特征词，并基于所述BERT中文词向量对所述文本特征词进行向量化，得到字向量序列包括：

4.如权利要求3所述的识别微信公众号所属业态的方法，其特征在于，所述LSTM-CNN模型包括LSTM模型以及CNN模型，所述将所述字向量序列输入LSTM-CNN模型，得到所述LSTM-CNN模型输出的目标特征向量包括：

5.如权利要求1至3中任一项所述的识别微信公众号所属业态的方法，其特征在于，所述LSTM-CNN模型中增加有dropout层以及earlystop机制，所述LSTM-CNN模型采用的损失函数为交叉熵，反向传播算法为adam优化算法。

6.一种识别微信公众号所属业态的装置，其特征在于，所述识别微信公众号所属业态的装置包括：

7.如权利要求6所述的识别微信公众号所属业态的装置，其特征在于，所述预训练模块用于：

8.如权利要求6所述的识别微信公众号所属业态的装置，其特征在于，所述向量化模块，用于：

9.如权利要求8所述的识别微信公众号所属业态的装置，其特征在于，所述第一输入模块，用于：

10.如权利要求6至9中任一项所述的识别微信公众号所属业态的装置，其特征在于，所述LSTM-CNN模型中增加有dropout层以及earlystop机制，所述LSTM-CNN模型采用的损失函数为交叉熵，反向传播算法为adam优化算法。