CN117009533B - 一种基于分聚类抽取与词向量模型的暗语识别方法 - Google Patents

一种基于分聚类抽取与词向量模型的暗语识别方法 Download PDF

Info

Publication number
CN117009533B
CN117009533B CN202311253170.6A CN202311253170A CN117009533B CN 117009533 B CN117009533 B CN 117009533B CN 202311253170 A CN202311253170 A CN 202311253170A CN 117009533 B CN117009533 B CN 117009533B
Authority
CN
China
Prior art keywords
text data
recognized
initial
text
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311253170.6A
Other languages
English (en)
Other versions
CN117009533A (zh
Inventor
赵志庆
侯玉柱
董席峰
张雨铭威
张昊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rongxing Technology Co ltd
Original Assignee
Rongxing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rongxing Technology Co ltd filed Critical Rongxing Technology Co ltd
Priority to CN202311253170.6A priority Critical patent/CN117009533B/zh
Publication of CN117009533A publication Critical patent/CN117009533A/zh
Application granted granted Critical
Publication of CN117009533B publication Critical patent/CN117009533B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及暗语识别领域,具体涉及一种基于分聚类抽取与词向量模型的暗语识别方法,包括:S1、获取待识别文本数据进行预处理筛选得到待识别初始文本数据;S2、根据所述待识别初始文本数据建立分聚类抽取模型;S3、根据所述分聚类抽取模型建立暗语识别词向量模型;S4、利用所述暗语识别词向量模型得到待识别文本数据的暗语识别结果,用半监督学习的方式,解决数据人工标注的工作,大大减少人工标注成本,有效提升面向社交言论,针对其言论篇幅短、用于不规范、使用暗语刻意规避平台识别等特征的场景研判准确度问题。

Description

一种基于分聚类抽取与词向量模型的暗语识别方法
技术领域
本发明涉及暗语识别领域,具体涉及一种基于分聚类抽取与词向量模型的暗语识别方法。
背景技术
随着互联网的普及和发展,网络安全问题日益突出。一些不法分子通过使用特定词汇、短语、语法结构、隐喻、暗示等方式(以下统称“暗语”)来隐藏真正的意图或含义,给社会安全以及人们的生活不小的影响。
发明内容
针对现有技术的不足,本发明提供了一种基于分聚类抽取与词向量模型的暗语识别方法,通过建立多级模型快速准确的得到暗语识别结果。
为实现上述目的,本发明提供了一种基于分聚类抽取与词向量模型的暗语识别方法,包括:
S1、获取待识别文本数据进行预处理筛选得到待识别初始文本数据;
S2、根据所述待识别初始文本数据建立分聚类抽取模型;
S3、根据所述分聚类抽取模型建立暗语识别词向量模型;
S4、利用所述暗语识别词向量模型得到待识别文本数据的暗语识别结果。
优选的,所述获取待识别文本数据进行预处理筛选得到待识别初始文本数据包括:
获取待识别文本数据;
利用所述待识别文本数据进行关键词预处理筛选获取待识别文本重点语义数据;
利用所述待识别文本重点语义数据与待识别文本数据作为待识别初始文本数据。
进一步的,根据所述待识别初始文本数据建立分聚类抽取模型包括:
S2-1、利用所述待识别初始文本数据的待识别文本重点语义数据建立基础分类抽取模型;
S2-2、利用所述待识别初始文本数据建立基础聚类抽取模型;
S2-3、利用所述基础分类抽取模型与基础聚类抽取模型作为分聚类抽取模型。
进一步的,利用所述待识别初始文本数据的待识别文本重点语义数据建立基础分类抽取模型包括:
利用所述待识别初始文本数据的待识别文本重点语义数据分别与待识别文本数据建立语义-语句映射集合;
利用所述待识别初始文本数据与语义-语句映射集合作为训练集;
利用所述训练集基于决策树进行训练得到基础分类抽取模型。
进一步的,利用所述待识别初始文本数据建立基础聚类抽取模型包括:
S2-2-1、获取待识别初始文本数据对应历史待识别文本重点语义数据与历史待识别文本数据;
S2-2-2、利用所述待识别初始文本数据的待识别文本重点语义数据分别与对应历史待识别文本重点语义数据建立重点语义关联映射集合;
S2-2-3、利用所述待识别初始文本数据的待识别文本数据与历史待识别文本数据建立综合文本关联映射;
S2-2-4、利用所述重点语义关联映射集合作为第一训练集,所述综合文本关联映射建立非正式验证集;
S2-2-5、利用所述第一训练集基于聚类算法进行训练得到初始聚类抽取模型;
S2-2-6、利用所述非正式验证集代入初始聚类抽取模型得到初始聚类抽取结果;
S2-2-7、判断所述初始聚类抽取结果是否均与待识别初始文本数据对应,若是,则输出初始聚类抽取模型作为基础聚类抽取模型,否则,获返回S2-2-1。
优选的,根据所述分聚类抽取模型建立暗语识别词向量模型包括:
利用所述待识别文本数据基于分聚类抽取模型得到待识别文本数据的分类抽取数据与待识别文本数据的聚类抽取数据;
利用所述待识别文本数据的分类抽取数据得到待识别文本数据的分类词汇向量;
根据所述待识别文本数据的分类词汇向量与对应待识别文本数据建立暗语识别词向量模型。
进一步的,利用所述待识别文本数据的分类抽取数据得到待识别文本数据的分类词汇向量包括:
利用所述待识别文本数据的分类抽取数据基于one-hot编码得到初始分类词汇向量;
利用所述初始分类词汇向量建立初始分类词汇向量集合;
判断所述初始分类词汇向量集合与待识别文本数据是否对应,若是,则根据所述初始分类词汇向量集合建立初始分类词汇向量稀疏矩阵,否则,放弃处理;
利用所述初始分类词汇向量稀疏矩阵进行归一化线性处理得到初始分类词汇向量稀疏矩阵的标签结果;
判断所述标签结果是否线性,若是,则输出初始分类词汇向量集合作为待识别文本数据的分类词汇向量,否则,放弃处理。
进一步的,根据所述待识别文本数据的分类词汇向量与对应待识别文本数据建立暗语识别词向量模型包括:
根据所述待识别文本数据的分类词汇向量获取对应历史待识别文本数据的分类词汇向量;
利用所述历史待识别文本数据的分类词汇向量与对应暗语识别词建立第二训练集;
利用所述待识别文本数据的分类词汇向量作为验证集;
利用所述训练集基于Word2Vec进行训练得到初始暗语识别词向量模型;
利用所述验证集代入初始暗语识别词向量模型得到初始暗语识别词输出结果;
判断所述初始暗语识别词输出结果与历史待识别文本数据对应暗语识别词是否强相关,若是,则输出初始暗语识别词向量模型作为暗语识别词向量模型,否则,放弃处理。
进一步的,利用所述暗语识别词向量模型得到待识别文本数据的暗语识别结果包括:
S4-1、利用所述待识别文本数据代入分聚类抽取模型得到待识别文本分聚类结果;
S4-2、利用所述待识别文本分聚类结果代入暗语识别词向量模型得到待识别文本暗语识别初始结果;
S4-3、利用所述待识别文本暗语识别初始结果进行回溯比对处理得到待识别文本数据的暗语识别结果。
进一步的,利用所述待识别文本暗语识别初始结果进行回溯比对处理得到待识别文本数据的暗语识别结果包括:
S4-3-1、判断所述待识别文本暗语识别初始结果是否存在对应历史待识别文本暗语识别初始结果,若是,则执行S4-3-2,否则,执行S4-3-3;
S4-3-2、判断所述待识别文本暗语识别初始结果对应待识别文本数据与历史待识别文本暗语识别初始结果对应历史待识别文本数据是否强相关,若是,则输出待识别文本暗语识别初始结果作为待识别文本数据的暗语识别结果,否则,执行S4-3-3;
S4-3-3、分别利用分聚类抽取模型的训练集与暗语识别词向量模型的训练集建立第一比对集合与第二比对集合;
S4-3-4、判断所述待识别文本暗语识别初始结果与第一比对集合是否存在对应,若是,则S4-3-5,否则,所述待识别文本数据的暗语识别结果为不存在;
S4-3-5、判断所述待识别文本暗语识别初始结果与第二比对集合是否存在对应,若是,则输出所述待识别文本暗语识别初始结果作为待识别文本暗语识别初始结果,否则,所述待识别文本数据的暗语识别结果为不存在。
与最接近的现有技术相比,本发明具有的有益效果:
对于初始文本先期进行重点词汇筛选,再建立多级模型,逐步筛选,同时引入线性归一保证模型训练过程的稳定准确,在原有人工标注暗语的基础上,用半监督学习的方式,解决数据人工标注的工作,大大减少人工标注成本,有效提升面向社交言论,针对其言论篇幅短、用于不规范、使用暗语刻意规避平台识别等特征的场景研判准确度问题。
附图说明
图1是本发明提供的一种基于分聚类抽取与词向量模型的暗语识别方法的流程图。
具体实施方式
下面结合附图对本发明的具体实施方式作进一步的详细说明。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1:本发明提供了一种基于分聚类抽取与词向量模型的暗语识别方法,如图1所示,包括:
S1、获取待识别文本数据进行预处理筛选得到待识别初始文本数据;
S2、根据所述待识别初始文本数据建立分聚类抽取模型;
S3、根据所述分聚类抽取模型建立暗语识别词向量模型;
S4、利用所述暗语识别词向量模型得到待识别文本数据的暗语识别结果。
S1具体包括:
S1-1、获取待识别文本数据;
S1-2、利用所述待识别文本数据进行关键词预处理筛选获取待识别文本重点语义数据;
S1-3、利用所述待识别文本重点语义数据与待识别文本数据作为待识别初始文本数据。
本实施例中,一种基于分聚类抽取与词向量模型的暗语识别方法,所述关键词定义为可以表达文本含义的词汇,包括但不限于主语、谓语、短词等,预处理筛选将上述词汇进行保留,减少后续模型训练的工作量。同时提升训练准确性。
S2具体包括:
S2-1、利用所述待识别初始文本数据的待识别文本重点语义数据建立基础分类抽取模型;
S2-2、利用所述待识别初始文本数据建立基础聚类抽取模型;
S2-3、利用所述基础分类抽取模型与基础聚类抽取模型作为分聚类抽取模型。
S2-1具体包括:
S2-1-1、利用所述待识别初始文本数据的待识别文本重点语义数据分别与待识别文本数据建立语义-语句映射集合;
S2-1-2、利用所述待识别初始文本数据与语义-语句映射集合作为训练集;
S2-1-3、利用所述训练集基于决策树进行训练得到基础分类抽取模型。
S2-2具体包括:
S2-2-1、获取待识别初始文本数据对应历史待识别文本重点语义数据与历史待识别文本数据;
S2-2-2、利用所述待识别初始文本数据的待识别文本重点语义数据分别与对应历史待识别文本重点语义数据建立重点语义关联映射集合;
S2-2-3、利用所述待识别初始文本数据的待识别文本数据与历史待识别文本数据建立综合文本关联映射;
S2-2-4、利用所述重点语义关联映射集合作为第一训练集,所述综合文本关联映射建立非正式验证集;
S2-2-5、利用所述第一训练集基于聚类算法进行训练得到初始聚类抽取模型;
S2-2-6、利用所述非正式验证集代入初始聚类抽取模型得到初始聚类抽取结果;
S2-2-7、判断所述初始聚类抽取结果是否均与待识别初始文本数据对应,若是,则输出初始聚类抽取模型作为基础聚类抽取模型,否则,获返回S2-2-1。
S3具体包括:
S3-1、利用所述待识别文本数据基于分聚类抽取模型得到待识别文本数据的分类抽取数据与待识别文本数据的聚类抽取数据;
S3-2、利用所述待识别文本数据的分类抽取数据得到待识别文本数据的分类词汇向量;
S3-3、根据所述待识别文本数据的分类词汇向量与对应待识别文本数据建立暗语识别词向量模型。
S3-2具体包括:
S3-2-1、利用所述待识别文本数据的分类抽取数据基于one-hot编码得到初始分类词汇向量;
S3-2-2、利用所述初始分类词汇向量建立初始分类词汇向量集合;
S3-2-3、判断所述初始分类词汇向量集合与待识别文本数据是否对应,若是,则根据所述初始分类词汇向量集合建立初始分类词汇向量稀疏矩阵,否则,放弃处理;
S3-2-4、利用所述初始分类词汇向量稀疏矩阵进行归一化线性处理得到初始分类词汇向量稀疏矩阵的标签结果;
S3-2-5、判断所述标签结果是否线性,若是,则输出初始分类词汇向量集合作为待识别文本数据的分类词汇向量,否则,放弃处理。
本实施例中,一种基于分聚类抽取与词向量模型的暗语识别方法,所述one-hot编码在本方案中的具体实施根据分类抽取数据中关键词的数量建立对应数量向量,为保证最终识别准确性,因此对其上限不做限制。
本实施例中,一种基于分聚类抽取与词向量模型的暗语识别方法,在语义识别中引入线性定义,为保证模型的输出与输出相对应,作为模型验证的手段之一。
S3-3具体包括:
S3-3-1、根据所述待识别文本数据的分类词汇向量获取对应历史待识别文本数据的分类词汇向量;
S3-3-2、利用所述历史待识别文本数据的分类词汇向量与对应暗语识别词建立第二训练集;
S3-3-3、利用所述待识别文本数据的分类词汇向量作为验证集;
S3-3-4、利用所述训练集基于Word2Vec进行训练得到初始暗语识别词向量模型;
S3-3-5、利用所述验证集代入初始暗语识别词向量模型得到初始暗语识别词输出结果;
S3-3-6、判断所述初始暗语识别词输出结果与历史待识别文本数据对应暗语识别词是否强相关,若是,则输出初始暗语识别词向量模型作为暗语识别词向量模型,否则,放弃处理。
S4具体包括:
S4-1、利用所述待识别文本数据代入分聚类抽取模型得到待识别文本分聚类结果;
S4-2、利用所述待识别文本分聚类结果代入暗语识别词向量模型得到待识别文本暗语识别初始结果;
S4-3、利用所述待识别文本暗语识别初始结果进行回溯比对处理得到待识别文本数据的暗语识别结果。
S4-3具体包括:
S4-3-1、判断所述待识别文本暗语识别初始结果是否存在对应历史待识别文本暗语识别初始结果,若是,则执行S4-3-2,否则,执行S4-3-3;
S4-3-2、判断所述待识别文本暗语识别初始结果对应待识别文本数据与历史待识别文本暗语识别初始结果对应历史待识别文本数据是否强相关,若是,则输出待识别文本暗语识别初始结果作为待识别文本数据的暗语识别结果,否则,执行S4-3-3;
S4-3-3、分别利用分聚类抽取模型的训练集与暗语识别词向量模型的训练集建立第一比对集合与第二比对集合;
S4-3-4、判断所述待识别文本暗语识别初始结果与第一比对集合是否存在对应,若是,则S4-3-5,否则,所述待识别文本数据的暗语识别结果为不存在;
S4-3-5、判断所述待识别文本暗语识别初始结果与第二比对集合是否存在对应,若是,则输出所述待识别文本暗语识别初始结果作为待识别文本暗语识别初始结果,否则,所述待识别文本数据的暗语识别结果为不存在。
本实施例中,一种基于分聚类抽取与词向量模型的暗语识别方法,所述强相关为,若两个数据或集合间的相似度大于0.8,则两个数据或集合相互强相关,其相似度可通过欧氏距离公式等计算。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

Claims (6)

1.一种基于分聚类抽取与词向量模型的暗语识别方法,其特征在于,包括:
S1、获取待识别文本数据进行预处理筛选得到待识别初始文本数据;
S1-1、获取待识别文本数据;
S1-2、利用所述待识别文本数据进行关键词预处理筛选获取待识别文本重点语义数据;
S1-3、利用所述待识别文本重点语义数据与待识别文本数据作为待识别初始文本数据;
S2、根据所述待识别初始文本数据建立分聚类抽取模型;
S2-1、利用所述待识别初始文本数据的待识别文本重点语义数据建立基础分类抽取模型;
S2-1-1、利用所述待识别初始文本数据的待识别文本重点语义数据分别与待识别文本数据建立语义-语句映射集合;
S2-1-2、利用所述待识别初始文本数据与语义-语句映射集合作为训练集;
S2-1-3、利用所述训练集基于决策树进行训练得到基础分类抽取模型;
S2-2、利用所述待识别初始文本数据建立基础聚类抽取模型;
S2-2-1、获取待识别初始文本数据对应历史待识别文本重点语义数据与历史待识别文本数据;
S2-2-2、利用所述待识别初始文本数据的待识别文本重点语义数据分别与对应历史待识别文本重点语义数据建立重点语义关联映射集合;
S2-2-3、利用所述待识别初始文本数据的待识别文本数据与历史待识别文本数据建立综合文本关联映射;
S2-2-4、利用所述重点语义关联映射集合作为第一训练集,所述综合文本关联映射建立非正式验证集;
S2-2-5、利用所述第一训练集基于聚类算法进行训练得到初始聚类抽取模型;
S2-2-6、利用所述非正式验证集代入初始聚类抽取模型得到初始聚类抽取结果;
S2-2-7、判断所述初始聚类抽取结果是否均与待识别初始文本数据对应,若是,则输出初始聚类抽取模型作为基础聚类抽取模型,否则,获返回S2-2-1;
S2-3、利用所述基础分类抽取模型与基础聚类抽取模型作为分聚类抽取模型
S3、根据所述分聚类抽取模型建立暗语识别词向量模型;
S4、利用所述暗语识别词向量模型得到待识别文本数据的暗语识别结果。
2.如权利要求1所述的一种基于分聚类抽取与词向量模型的暗语识别方法,其特征在于,根据所述分聚类抽取模型建立暗语识别词向量模型包括:
利用所述待识别文本数据基于分聚类抽取模型得到待识别文本数据的分类抽取数据与待识别文本数据的聚类抽取数据;
利用所述待识别文本数据的分类抽取数据得到待识别文本数据的分类词汇向量;
根据所述待识别文本数据的分类词汇向量与对应待识别文本数据建立暗语识别词向量模型。
3.如权利要求2所述的一种基于分聚类抽取与词向量模型的暗语识别方法,其特征在于,利用所述待识别文本数据的分类抽取数据得到待识别文本数据的分类词汇向量包括:
利用所述待识别文本数据的分类抽取数据基于one-hot编码得到初始分类词汇向量;
利用所述初始分类词汇向量建立初始分类词汇向量集合;
判断所述初始分类词汇向量集合与待识别文本数据是否对应,若是,则根据所述初始分类词汇向量集合建立初始分类词汇向量稀疏矩阵,否则,放弃处理;
利用所述初始分类词汇向量稀疏矩阵进行归一化线性处理得到初始分类词汇向量稀疏矩阵的标签结果;
判断所述标签结果是否线性,若是,则输出初始分类词汇向量集合作为待识别文本数据的分类词汇向量,否则,放弃处理。
4.如权利要求3所述的一种基于分聚类抽取与词向量模型的暗语识别方法,其特征在于,根据所述待识别文本数据的分类词汇向量与对应待识别文本数据建立暗语识别词向量模型包括:
根据所述待识别文本数据的分类词汇向量获取对应历史待识别文本数据的分类词汇向量;
利用所述历史待识别文本数据的分类词汇向量与对应暗语识别词建立第二训练集;
利用所述待识别文本数据的分类词汇向量作为验证集;
利用所述训练集基于Word2Vec进行训练得到初始暗语识别词向量模型;
利用所述验证集代入初始暗语识别词向量模型得到初始暗语识别词输出结果;
判断所述初始暗语识别词输出结果与历史待识别文本数据对应暗语识别词是否强相关,若是,则输出初始暗语识别词向量模型作为暗语识别词向量模型,否则,放弃处理。
5.如权利要求2所述的一种基于分聚类抽取与词向量模型的暗语识别方法,其特征在于,利用所述暗语识别词向量模型得到待识别文本数据的暗语识别结果包括:
S4-1、利用所述待识别文本数据代入分聚类抽取模型得到待识别文本分聚类结果;
S4-2、利用所述待识别文本分聚类结果代入暗语识别词向量模型得到待识别文本暗语识别初始结果;
S4-3、利用所述待识别文本暗语识别初始结果进行回溯比对处理得到待识别文本数据的暗语识别结果。
6.如权利要求5所述的一种基于分聚类抽取与词向量模型的暗语识别方法,其特征在于,利用所述待识别文本暗语识别初始结果进行回溯比对处理得到待识别文本数据的暗语识别结果包括:
S4-3-1、判断所述待识别文本暗语识别初始结果是否存在对应历史待识别文本暗语识别初始结果,若是,则执行S4-3-2,否则,执行S4-3-3;
S4-3-2、判断所述待识别文本暗语识别初始结果对应待识别文本数据与历史待识别文本暗语识别初始结果对应历史待识别文本数据是否强相关,若是,则输出待识别文本暗语识别初始结果作为待识别文本数据的暗语识别结果,否则,执行S4-3-3;
S4-3-3、分别利用分聚类抽取模型的训练集与暗语识别词向量模型的训练集建立第一比对集合与第二比对集合;
S4-3-4、判断所述待识别文本暗语识别初始结果与第一比对集合是否存在对应,若是,则S4-3-5,否则,所述待识别文本数据的暗语识别结果为不存在;
S4-3-5、判断所述待识别文本暗语识别初始结果与第二比对集合是否存在对应,若是,则输出所述待识别文本暗语识别初始结果作为待识别文本暗语识别初始结果,否则,所述待识别文本数据的暗语识别结果为不存在。
CN202311253170.6A 2023-09-27 2023-09-27 一种基于分聚类抽取与词向量模型的暗语识别方法 Active CN117009533B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311253170.6A CN117009533B (zh) 2023-09-27 2023-09-27 一种基于分聚类抽取与词向量模型的暗语识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311253170.6A CN117009533B (zh) 2023-09-27 2023-09-27 一种基于分聚类抽取与词向量模型的暗语识别方法

Publications (2)

Publication Number Publication Date
CN117009533A CN117009533A (zh) 2023-11-07
CN117009533B true CN117009533B (zh) 2023-12-26

Family

ID=88576533

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311253170.6A Active CN117009533B (zh) 2023-09-27 2023-09-27 一种基于分聚类抽取与词向量模型的暗语识别方法

Country Status (1)

Country Link
CN (1) CN117009533B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368535A (zh) * 2018-12-26 2020-07-03 珠海金山网络游戏科技有限公司 一种敏感词识别方法、装置及设备
CN111444722A (zh) * 2020-03-06 2020-07-24 中国平安人寿保险股份有限公司 基于投票决策的意图分类方法、装置、设备及存储介质
CN112231472A (zh) * 2020-09-18 2021-01-15 昆明理工大学 融入领域术语词典的司法舆情敏感信息识别方法
CN113535950A (zh) * 2021-06-15 2021-10-22 杭州电子科技大学 一种基于知识图谱和胶囊网络的小样本意图识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368535A (zh) * 2018-12-26 2020-07-03 珠海金山网络游戏科技有限公司 一种敏感词识别方法、装置及设备
CN111444722A (zh) * 2020-03-06 2020-07-24 中国平安人寿保险股份有限公司 基于投票决策的意图分类方法、装置、设备及存储介质
CN112231472A (zh) * 2020-09-18 2021-01-15 昆明理工大学 融入领域术语词典的司法舆情敏感信息识别方法
CN113535950A (zh) * 2021-06-15 2021-10-22 杭州电子科技大学 一种基于知识图谱和胶囊网络的小样本意图识别方法

Also Published As

Publication number Publication date
CN117009533A (zh) 2023-11-07

Similar Documents

Publication Publication Date Title
CN109635273B (zh) 文本关键词提取方法、装置、设备及存储介质
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
CN108710704B (zh) 对话状态的确定方法、装置、电子设备及存储介质
CN111310470B (zh) 一种融合字词特征的中文命名实体识别方法
CN112101041A (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN113505209A (zh) 一种面向汽车领域的智能问答系统
CN114676255A (zh) 文本处理方法、装置、设备、存储介质及计算机程序产品
CN110633475A (zh) 基于计算机场景的自然语言理解方法、装置、系统和存储介质
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN111738018A (zh) 一种意图理解方法、装置、设备及存储介质
CN112364132A (zh) 基于依存句法的相似度计算模型和系统及搭建系统的方法
CN113705315A (zh) 视频处理方法、装置、设备及存储介质
CN112446209A (zh) 一种意图标签的设置方法、设备、装置及存储介质
CN115759071A (zh) 基于大数据的政务敏感信息识别系统和方法
CN111400340A (zh) 一种自然语言处理方法、装置、计算机设备和存储介质
CN113254575B (zh) 一种基于多步证据推理的机器阅读理解方法与系统
CN117009533B (zh) 一种基于分聚类抽取与词向量模型的暗语识别方法
CN117332788A (zh) 一种基于英语口语文本的语义分析方法
CN115858776B (zh) 一种变体文本分类识别方法、系统、存储介质和电子设备
CN111831792A (zh) 一种电力知识库构建方法及系统
CN115292533A (zh) 视觉定位驱动的跨模态行人检索方法
CN114792092A (zh) 一种基于语义增强的文本主题抽取方法及装置
CN114417828A (zh) 一种服务器告警日志描述文本的实体关系抽取方法及系统
CN114722153A (zh) 一种意图分类的方法和装置
CN113886520A (zh) 一种基于图神经网络的代码检索方法、系统及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant