CN117009533B

CN117009533B - 一种基于分聚类抽取与词向量模型的暗语识别方法

Info

Publication number: CN117009533B
Application number: CN202311253170.6A
Authority: CN
Inventors: 赵志庆; 侯玉柱; 董席峰; 张雨铭威; 张昊
Original assignee: Rongxing Technology Co ltd
Current assignee: Rongxing Technology Co ltd
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2023-12-26
Anticipated expiration: 2043-09-27
Also published as: CN117009533A

Abstract

本发明涉及暗语识别领域，具体涉及一种基于分聚类抽取与词向量模型的暗语识别方法，包括：S1、获取待识别文本数据进行预处理筛选得到待识别初始文本数据；S2、根据所述待识别初始文本数据建立分聚类抽取模型；S3、根据所述分聚类抽取模型建立暗语识别词向量模型；S4、利用所述暗语识别词向量模型得到待识别文本数据的暗语识别结果，用半监督学习的方式，解决数据人工标注的工作，大大减少人工标注成本，有效提升面向社交言论，针对其言论篇幅短、用于不规范、使用暗语刻意规避平台识别等特征的场景研判准确度问题。

Description

一种基于分聚类抽取与词向量模型的暗语识别方法

技术领域

本发明涉及暗语识别领域，具体涉及一种基于分聚类抽取与词向量模型的暗语识别方法。

背景技术

随着互联网的普及和发展，网络安全问题日益突出。一些不法分子通过使用特定词汇、短语、语法结构、隐喻、暗示等方式（以下统称“暗语”）来隐藏真正的意图或含义，给社会安全以及人们的生活不小的影响。

发明内容

针对现有技术的不足，本发明提供了一种基于分聚类抽取与词向量模型的暗语识别方法，通过建立多级模型快速准确的得到暗语识别结果。

为实现上述目的，本发明提供了一种基于分聚类抽取与词向量模型的暗语识别方法，包括：

S1、获取待识别文本数据进行预处理筛选得到待识别初始文本数据；

S2、根据所述待识别初始文本数据建立分聚类抽取模型；

S3、根据所述分聚类抽取模型建立暗语识别词向量模型；

S4、利用所述暗语识别词向量模型得到待识别文本数据的暗语识别结果。

优选的，所述获取待识别文本数据进行预处理筛选得到待识别初始文本数据包括：

获取待识别文本数据；

利用所述待识别文本数据进行关键词预处理筛选获取待识别文本重点语义数据；

利用所述待识别文本重点语义数据与待识别文本数据作为待识别初始文本数据。

进一步的，根据所述待识别初始文本数据建立分聚类抽取模型包括：

S2-1、利用所述待识别初始文本数据的待识别文本重点语义数据建立基础分类抽取模型；

S2-2、利用所述待识别初始文本数据建立基础聚类抽取模型；

S2-3、利用所述基础分类抽取模型与基础聚类抽取模型作为分聚类抽取模型。

进一步的，利用所述待识别初始文本数据的待识别文本重点语义数据建立基础分类抽取模型包括：

利用所述待识别初始文本数据的待识别文本重点语义数据分别与待识别文本数据建立语义-语句映射集合；

利用所述待识别初始文本数据与语义-语句映射集合作为训练集；

利用所述训练集基于决策树进行训练得到基础分类抽取模型。

进一步的，利用所述待识别初始文本数据建立基础聚类抽取模型包括：

S2-2-1、获取待识别初始文本数据对应历史待识别文本重点语义数据与历史待识别文本数据；

S2-2-2、利用所述待识别初始文本数据的待识别文本重点语义数据分别与对应历史待识别文本重点语义数据建立重点语义关联映射集合；

S2-2-3、利用所述待识别初始文本数据的待识别文本数据与历史待识别文本数据建立综合文本关联映射；

S2-2-4、利用所述重点语义关联映射集合作为第一训练集，所述综合文本关联映射建立非正式验证集；

S2-2-5、利用所述第一训练集基于聚类算法进行训练得到初始聚类抽取模型；

S2-2-6、利用所述非正式验证集代入初始聚类抽取模型得到初始聚类抽取结果；

S2-2-7、判断所述初始聚类抽取结果是否均与待识别初始文本数据对应，若是，则输出初始聚类抽取模型作为基础聚类抽取模型，否则，获返回S2-2-1。

优选的，根据所述分聚类抽取模型建立暗语识别词向量模型包括：

利用所述待识别文本数据基于分聚类抽取模型得到待识别文本数据的分类抽取数据与待识别文本数据的聚类抽取数据；

利用所述待识别文本数据的分类抽取数据得到待识别文本数据的分类词汇向量；

根据所述待识别文本数据的分类词汇向量与对应待识别文本数据建立暗语识别词向量模型。

进一步的，利用所述待识别文本数据的分类抽取数据得到待识别文本数据的分类词汇向量包括：

利用所述待识别文本数据的分类抽取数据基于one-hot编码得到初始分类词汇向量；

利用所述初始分类词汇向量建立初始分类词汇向量集合；

判断所述初始分类词汇向量集合与待识别文本数据是否对应，若是，则根据所述初始分类词汇向量集合建立初始分类词汇向量稀疏矩阵，否则，放弃处理；

利用所述初始分类词汇向量稀疏矩阵进行归一化线性处理得到初始分类词汇向量稀疏矩阵的标签结果；

判断所述标签结果是否线性，若是，则输出初始分类词汇向量集合作为待识别文本数据的分类词汇向量，否则，放弃处理。

进一步的，根据所述待识别文本数据的分类词汇向量与对应待识别文本数据建立暗语识别词向量模型包括：

根据所述待识别文本数据的分类词汇向量获取对应历史待识别文本数据的分类词汇向量；

利用所述历史待识别文本数据的分类词汇向量与对应暗语识别词建立第二训练集；

利用所述待识别文本数据的分类词汇向量作为验证集；

利用所述训练集基于Word2Vec进行训练得到初始暗语识别词向量模型；

利用所述验证集代入初始暗语识别词向量模型得到初始暗语识别词输出结果；

判断所述初始暗语识别词输出结果与历史待识别文本数据对应暗语识别词是否强相关，若是，则输出初始暗语识别词向量模型作为暗语识别词向量模型，否则，放弃处理。

进一步的，利用所述暗语识别词向量模型得到待识别文本数据的暗语识别结果包括：

S4-1、利用所述待识别文本数据代入分聚类抽取模型得到待识别文本分聚类结果；

S4-2、利用所述待识别文本分聚类结果代入暗语识别词向量模型得到待识别文本暗语识别初始结果；

S4-3、利用所述待识别文本暗语识别初始结果进行回溯比对处理得到待识别文本数据的暗语识别结果。

进一步的，利用所述待识别文本暗语识别初始结果进行回溯比对处理得到待识别文本数据的暗语识别结果包括：

S4-3-1、判断所述待识别文本暗语识别初始结果是否存在对应历史待识别文本暗语识别初始结果，若是，则执行S4-3-2，否则，执行S4-3-3；

S4-3-2、判断所述待识别文本暗语识别初始结果对应待识别文本数据与历史待识别文本暗语识别初始结果对应历史待识别文本数据是否强相关，若是，则输出待识别文本暗语识别初始结果作为待识别文本数据的暗语识别结果，否则，执行S4-3-3；

S4-3-3、分别利用分聚类抽取模型的训练集与暗语识别词向量模型的训练集建立第一比对集合与第二比对集合；

S4-3-4、判断所述待识别文本暗语识别初始结果与第一比对集合是否存在对应，若是，则S4-3-5，否则，所述待识别文本数据的暗语识别结果为不存在；

S4-3-5、判断所述待识别文本暗语识别初始结果与第二比对集合是否存在对应，若是，则输出所述待识别文本暗语识别初始结果作为待识别文本暗语识别初始结果，否则，所述待识别文本数据的暗语识别结果为不存在。

与最接近的现有技术相比，本发明具有的有益效果：

对于初始文本先期进行重点词汇筛选，再建立多级模型，逐步筛选，同时引入线性归一保证模型训练过程的稳定准确，在原有人工标注暗语的基础上，用半监督学习的方式，解决数据人工标注的工作，大大减少人工标注成本，有效提升面向社交言论，针对其言论篇幅短、用于不规范、使用暗语刻意规避平台识别等特征的场景研判准确度问题。

附图说明

图1是本发明提供的一种基于分聚类抽取与词向量模型的暗语识别方法的流程图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步的详细说明。

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1：本发明提供了一种基于分聚类抽取与词向量模型的暗语识别方法，如图1所示，包括：

S2、根据所述待识别初始文本数据建立分聚类抽取模型；

S3、根据所述分聚类抽取模型建立暗语识别词向量模型；

S1具体包括：

S1-1、获取待识别文本数据；

S1-2、利用所述待识别文本数据进行关键词预处理筛选获取待识别文本重点语义数据；

S1-3、利用所述待识别文本重点语义数据与待识别文本数据作为待识别初始文本数据。

本实施例中，一种基于分聚类抽取与词向量模型的暗语识别方法，所述关键词定义为可以表达文本含义的词汇，包括但不限于主语、谓语、短词等，预处理筛选将上述词汇进行保留，减少后续模型训练的工作量。同时提升训练准确性。

S2具体包括：

S2-2、利用所述待识别初始文本数据建立基础聚类抽取模型；

S2-1具体包括：

S2-1-1、利用所述待识别初始文本数据的待识别文本重点语义数据分别与待识别文本数据建立语义-语句映射集合；

S2-1-2、利用所述待识别初始文本数据与语义-语句映射集合作为训练集；

S2-1-3、利用所述训练集基于决策树进行训练得到基础分类抽取模型。

S2-2具体包括：

S3具体包括：

S3-1、利用所述待识别文本数据基于分聚类抽取模型得到待识别文本数据的分类抽取数据与待识别文本数据的聚类抽取数据；

S3-2、利用所述待识别文本数据的分类抽取数据得到待识别文本数据的分类词汇向量；

S3-3、根据所述待识别文本数据的分类词汇向量与对应待识别文本数据建立暗语识别词向量模型。

S3-2具体包括：

S3-2-1、利用所述待识别文本数据的分类抽取数据基于one-hot编码得到初始分类词汇向量；

S3-2-2、利用所述初始分类词汇向量建立初始分类词汇向量集合；

S3-2-3、判断所述初始分类词汇向量集合与待识别文本数据是否对应，若是，则根据所述初始分类词汇向量集合建立初始分类词汇向量稀疏矩阵，否则，放弃处理；

S3-2-4、利用所述初始分类词汇向量稀疏矩阵进行归一化线性处理得到初始分类词汇向量稀疏矩阵的标签结果；

S3-2-5、判断所述标签结果是否线性，若是，则输出初始分类词汇向量集合作为待识别文本数据的分类词汇向量，否则，放弃处理。

本实施例中，一种基于分聚类抽取与词向量模型的暗语识别方法，所述one-hot编码在本方案中的具体实施根据分类抽取数据中关键词的数量建立对应数量向量，为保证最终识别准确性，因此对其上限不做限制。

本实施例中，一种基于分聚类抽取与词向量模型的暗语识别方法，在语义识别中引入线性定义，为保证模型的输出与输出相对应，作为模型验证的手段之一。

S3-3具体包括：

S3-3-1、根据所述待识别文本数据的分类词汇向量获取对应历史待识别文本数据的分类词汇向量；

S3-3-2、利用所述历史待识别文本数据的分类词汇向量与对应暗语识别词建立第二训练集；

S3-3-3、利用所述待识别文本数据的分类词汇向量作为验证集；

S3-3-4、利用所述训练集基于Word2Vec进行训练得到初始暗语识别词向量模型；

S3-3-5、利用所述验证集代入初始暗语识别词向量模型得到初始暗语识别词输出结果；

S3-3-6、判断所述初始暗语识别词输出结果与历史待识别文本数据对应暗语识别词是否强相关，若是，则输出初始暗语识别词向量模型作为暗语识别词向量模型，否则，放弃处理。

S4具体包括：

S4-3具体包括：

本实施例中，一种基于分聚类抽取与词向量模型的暗语识别方法，所述强相关为，若两个数据或集合间的相似度大于0.8，则两个数据或集合相互强相关，其相似度可通过欧氏距离公式等计算。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本申请实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于分聚类抽取与词向量模型的暗语识别方法，其特征在于，包括：

S1-1、获取待识别文本数据；

S1-3、利用所述待识别文本重点语义数据与待识别文本数据作为待识别初始文本数据；

S2、根据所述待识别初始文本数据建立分聚类抽取模型；

S2-1-3、利用所述训练集基于决策树进行训练得到基础分类抽取模型；

S2-2、利用所述待识别初始文本数据建立基础聚类抽取模型；

S2-2-7、判断所述初始聚类抽取结果是否均与待识别初始文本数据对应，若是，则输出初始聚类抽取模型作为基础聚类抽取模型，否则，获返回S2-2-1；

S2-3、利用所述基础分类抽取模型与基础聚类抽取模型作为分聚类抽取模型

S3、根据所述分聚类抽取模型建立暗语识别词向量模型；

2.如权利要求1所述的一种基于分聚类抽取与词向量模型的暗语识别方法，其特征在于，根据所述分聚类抽取模型建立暗语识别词向量模型包括：

3.如权利要求2所述的一种基于分聚类抽取与词向量模型的暗语识别方法，其特征在于，利用所述待识别文本数据的分类抽取数据得到待识别文本数据的分类词汇向量包括：

利用所述初始分类词汇向量建立初始分类词汇向量集合；

4.如权利要求3所述的一种基于分聚类抽取与词向量模型的暗语识别方法，其特征在于，根据所述待识别文本数据的分类词汇向量与对应待识别文本数据建立暗语识别词向量模型包括：

利用所述待识别文本数据的分类词汇向量作为验证集；

5.如权利要求2所述的一种基于分聚类抽取与词向量模型的暗语识别方法，其特征在于，利用所述暗语识别词向量模型得到待识别文本数据的暗语识别结果包括：

6.如权利要求5所述的一种基于分聚类抽取与词向量模型的暗语识别方法，其特征在于，利用所述待识别文本暗语识别初始结果进行回溯比对处理得到待识别文本数据的暗语识别结果包括：