CN115599917A - 基于改进蝙蝠算法的文本双聚类方法 - Google Patents
基于改进蝙蝠算法的文本双聚类方法 Download PDFInfo
- Publication number
- CN115599917A CN115599917A CN202211349967.1A CN202211349967A CN115599917A CN 115599917 A CN115599917 A CN 115599917A CN 202211349967 A CN202211349967 A CN 202211349967A CN 115599917 A CN115599917 A CN 115599917A
- Authority
- CN
- China
- Prior art keywords
- text
- target
- text data
- data
- double
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了基于改进蝙蝠算法的文本双聚类方法,包括:S01:采集文本数据,并对文本数据进行缓存;S02:基于缓存结果对文本数据进行预处理,并基于预处理结果构建标准化词文本共现矩阵;S03:基于改进的蝙蝠算法对标准化词文本共现矩阵进行分析,得到文本数据的双聚类结果。通过对采集到的文本数据进行预处理,生成标准化词文本共现矩阵,并通过改进的蝙蝠算法对标准化词文本共现矩阵进行分析,便于对文本数据进行深度挖掘,对文本数据特征进行清楚准确的了解,实现对文本数据进行高效的聚类,提高对信息的使用率。
Description
技术领域
本发明涉及数据处理技术领域,特别涉及一种基于改进蝙蝠算法的文本双聚类方法。
背景技术
目前,聚类分析已经成为机器学习当下最热门的问题之一,被广泛应用于模式识别、图像处理、商业智能、文档聚类、市场调研、数据分析、客户推荐等领域,发挥着巨大的作用,聚类分析是按照数据之间的某种相似性测度将多维数据分割成自然分组或者簇的过程,高质量的聚类代表着,组或者簇内的元素之间的相似性达到最大值,而组间元素之间的相似性达到最小值,随着科学技术的飞速发展,各种不同的聚类算法也在不断地涌现,例如K-means算法、层次聚类算法、模糊C均值算法等,但任何一种单一的聚类算法都不能达到普遍适用的效果,聚类集成技术的引入极大地改变了这一状况;
聚类集成技术被称为聚类组合或者聚类融合,是将多个聚类结果合并起来的过程,通常情况下,也被称作是一致性问题的解决方案;
传统的聚类方法大致可以分为五个大类:划分方法、层次方法、基于密度方法、基于网格方法和基于模型方,该聚类方式能够根据数据的全部属性进行聚类,但是由于处在大数据时代,计算机技术也在不断地进步,大量的高维数据产生出来,这些数据往往拥有十几个甚至更多的特征。在这时传统的聚类方式已经不能够实现对这些数据进行高效的聚类,为了解决这一限制,双聚类算法诞生了,双聚类算法和传统的聚类算法不同的是,双聚类算法可以同时对行和列两个维度方向进行聚类,同一行或者一列可以同时属于一个或者多个类,也可以不属于任何一类,因此双聚类在结构上具有更大的自由度,能够更有效地挖掘高维数据中蕴藏的更多有价值的信息,由于传统的聚类方式的聚类方式,它只能寻找全局信息,无法找到局部信息,而双聚类能够更好地在数据矩阵中寻找局部信息;
因此,本发明提供了一种基于改进蝙蝠算法的文本双聚类方法。
发明内容
本发明提供基于改进蝙蝠算法的文本双聚类方法,用以通过对采集到的文本数据进行预处理,生成标准化词文本共现矩阵,并通过改进的蝙蝠算法对标准化词文本共现矩阵进行分析,便于对文本数据进行深度挖掘,对文本数据特征进行清楚准确的了解,实现对文本数据进行高效的聚类,提高对信息的使用率。
本发明提供了基于改进蝙蝠算法的文本双聚类方法,包括:
S01:采集文本数据,并对文本数据进行缓存;
S02:基于缓存结果对文本数据进行预处理,并基于预处理结果构建标准化词文本共现矩阵;
S03:基于改进的蝙蝠算法对标准化词文本共现矩阵进行分析,得到文本数据的双聚类结果。
优选的,一种基于改进蝙蝠算法的文本双聚类方法,S01中,采集文本数据,包括:
获取业务处理任务,并对业务处理任务进行解析,确定业务处理任务对应的目标属性;
基于目标属性确定待采集文本数据类型集,并基于待采集文本类型集生成数据采集请求,且将数据采集请求传输至预设数据库,并实时接收预设数据库对数据采集请求的反馈信息;
当反馈信息为允许采集时,对预设数据库中各预设数据进行检索,提取各预设数据的数据标识,并将数据标识与待采集文本数据类型集进行匹配,且基于匹配结果得到目标采集文本数据,并将目标采集文本数据反馈至数据采集终端。
优选的,一种基于改进蝙蝠算法的文本双聚类方法,S01中,对文本数据进行缓存,包括:
获取采集到的文本数据,并确定对文本数据的分类指标,且将分类指标作为各类数据中心;
确定各文本数据与各类数据中心的汉明距离,且将汉明距离小于预设阈值的子文本数据与对应类数据中心进行捆绑,得到文本数据对应的目标类别;
对各目标类别的文本数据进行统计,确定各目标类别中文本数据的目标数据量,且基于目标类别以及目标数据量在对应预设存储区域划分缓存空间;
基于划分结果将各目标类别的文本数据在对应的缓存空间进行缓存。
优选的,一种基于改进蝙蝠算法的文本双聚类方法,S02中,基于缓存结果对文本数据进行预处理,并基于预处理结果构建标准化词文本共现矩阵,包括:
获取缓存到的文本数据,并对文本数据进行分词,得到文本数据中包含的N个文本词,且分别提取各文本词的数据特征;
基于数据特征确定各文本词的词汇类型,并基于词汇类型确定各文本词中的目标连接词以及目标内容词;
确定目标连接词的第一数量,并基于第一数量对目标连接词进行第一移除;
提取目标内容词的特征向量,并基于特征向量对目标内容词进行分类,且基于分类结果确定不同类别中各目标内容词的目标个数;
基于目标个数确定低频目标内容词,并基于目标个数对低频内容词进行第二移除。
优选的,一种基于改进蝙蝠算法的文本双聚类方法,基于第一数量对目标连接词进行第一移除以及基于目标个数对低频内容词进行第二移除后,包括:
获取对文本数据对应的文本词进行第一移除和第二移除后得到的目标词集合,并提取目标词集合中的各文本词的特征词汇向量;
基于特征词汇向量确定目标词集合中的题干,并将目标词集合中除题干外其他的文本词组合成目标表达式W;
将目标表达式W转换为数字形式,并基于数字形式确定加权文本向量,且基于加权文本向量构建标准化词文本共现矩阵。
优选的,一种基于改进蝙蝠算法的文本双聚类方法,基于特征词汇向量确定目标词集合中的题干,包括:
获取目标词集合中的各文本词的特征词汇向量,同时,确定目标词集合的目标主题,并基于目标主题以及特征词汇向量确定目标词集合中的各文本词相对目标主题的归属权重值;
构建题干提取模型,并基于归属权重值对题干提取模型进行训练,得到目标题干提取模型;
将目标词集合中的各文本词的特征词汇向量输入题干提取模型,得到特征词汇集合,并基于特征词汇结合确定目标词集合的题干。
优选的,一种基于改进蝙蝠算法的文本双聚类方法,S03中,基于改进的蝙蝠算法对标准化词文本共现矩阵进行分析,得到文本数据的双聚类结果,包括:
S31:获取得到的标准化词文本共现矩阵,并基于预设聚类算法对标准化词文本共现矩阵进行聚类,得到a个行簇和b个列簇,且将a个行簇和b个列簇进行组合,得到a*b个双聚类;
S32:基于长度为N+M的二进制字符串对a*b个双聚类进行编码;
S33:确定基于蝙蝠算法对编码后的文本数据的初始检索速度,并基于动态递减惯性权重对初始检索速度进行更新,且基于更新结果通过位翻转变异算子对a*b个双聚类编码进行局部搜索,得到初始双聚类结果;
S34:重复S32-S33直至完成规定的迭代次数,输出最终的双聚类结果。
优选的,一种基于改进蝙蝠算法的文本双聚类方法,S34中,重复S32-S33直至完成规定的迭代次数,输出最终的双聚类结果,包括:
获取对标准化词文本共现矩阵中行簇和列簇进行组合后得到的双聚类的个数,并基于双聚类的个数确定对标准化词文本共现矩阵迭代总次数;
实时监测对标准化词文本共现矩阵的当前迭代次数,并将当前迭代次数与迭代总次数进行比较;
若当前迭代次数大于或等于迭代总次数,则输出文本数据的双聚类结果;
否则,重复步骤S32-S33,直至当前迭代次数大于或等于迭代总次数。
优选的,一种基于改进蝙蝠算法的文本双聚类方法,输出最终的双聚类结果,包括:
获取对文本数据的双聚类结果,并基于双聚类结果确定文本数据中的局部信息,且基于双聚类结果确定局部信息之间的目标关联;
基于目标关联确定文本数据包含的目标子数据类别,同时,统计目标子数据类别的类别个数以及类别属性,并基于类别个数以及类别属性从预设记录模板库中匹配目标记录模板;
将目标子数据类别在目标记录模板中进行记录,得到最终的双聚类结果报表。
优选的,一种基于改进蝙蝠算法的文本双聚类方法,得到最终的双聚类结果报表,包括:
获取得到的双聚类结果报表,并基于双聚类结果报表提取每一类别的第一特征;
同时,提取每一类别中包含的文本数据的第二特征,并确定第一特征与第二特征的相似度;
将相似度与预设相似度进行比较;
若相似度大于或等于预设相似度,判定对文本数据的双聚类无误,完成对文本数据的双聚类;
否则,判定对文本数据的双聚类有误,并重新文本数据进行双聚类操作。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中基于改进蝙蝠算法的文本双聚类方法的流程图;
图2为本发明实施例中基于改进蝙蝠算法的文本双聚类方法中S02的原理图;
图3为本发明实施例中基于改进蝙蝠算法的文本双聚类方法中S03的原理图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1:
本实施例提供了基于改进蝙蝠算法的文本双聚类方法,如图1所示,包括:
S01:采集文本数据,并对文本数据进行缓存;
S02:基于缓存结果对文本数据进行预处理,并基于预处理结果构建标准化词文本共现矩阵;
S03:基于改进的蝙蝠算法对标准化词文本共现矩阵进行分析,得到文本数据的双聚类结果。
该实施例中,文本数据指的是需要进行聚类的以文本形式进行展示的数据。
该实施例中,缓存指的是对采集到的文本数据进行临时存储,从而便于对采集到的文本数据进行分析处理,达到双聚类的效果。
该实施例中,预处理指的是对采集到的文本数据进行筛选,剔除其中的低频词以及连接词等,从而得到新的词集合。
该实施例中,标准化词文本共现矩阵指的是将预处理后的文本数据采用加权文本向量进行表示的矩阵形式,便于对文本数据进行双聚类处理。
该实施例中,蝙蝠算法是一种搜索全局最优解的有效方法。
该实施例中,文本双聚类指的是对文本数据从全局以及局部两方面进行分析,可以同时对行和列两个维度方向进行聚类,同一行或者一列可以同时属于一个或者多个类,也可以不属于任何一类,能够更好地在数据矩阵中寻找局部信息。
该实施例中,基于改进的蝙蝠算法对标准化词文本共现矩阵进行分析指的是同时对标准化词文本共现矩阵中的行和列两个维度方向进行聚类。
该实施例中,双聚类结果指的是对标准化词文本共现矩阵包含的文本数据进行划分后得到的分类组或是簇,其中,同一个文本数据可以为一类也可以为多类。
上述技术方案的有益效果是:通过对采集到的文本数据进行预处理,生成标准化词文本共现矩阵,并通过改进的蝙蝠算法对标准化词文本共现矩阵进行分析,便于对文本数据进行深度挖掘,对文本数据特征进行清楚准确的了解,实现对文本数据进行高效的聚类,提高对信息的使用率。
实施例2:
在实施例1的基础上,本实施例提供了一种基于改进蝙蝠算法的文本双聚类方法,S01中,采集文本数据,包括:
获取业务处理任务,并对业务处理任务进行解析,确定业务处理任务对应的目标属性;
基于目标属性确定待采集文本数据类型集,并基于待采集文本类型集生成数据采集请求,且将数据采集请求传输至预设数据库,并实时接收预设数据库对数据采集请求的反馈信息;
当反馈信息为允许采集时,对预设数据库中各预设数据进行检索,提取各预设数据的数据标识,并将数据标识与待采集文本数据类型集进行匹配,且基于匹配结果得到目标采集文本数据,并将目标采集文本数据反馈至数据采集终端。
该实施例中,业务处理任务指的是需要进行分析或是聚类的业务种类,具体可以是模式识别、图像处理、商业智能、文档聚类、市场调研、数据分析、客户推荐业务,其中,业务处理任务至少为一种。
该实施例中,目标属性指的是业务处理任务的工作特点(即业务处理任务对应的运行数据),通过目标属性可确定业务处理任务的业务类型。
该实施例中,待采集文本数据类型集指的是需要从预设数据库中进行采集的数据种类,且需要采集的文本数据类型不唯一。
该实施例中,数据采集请求是根据待采集文本数据类型集确定的,具体包括需要采集的数据类型以及每一类型包含的数据量。
该实施例中,预设数据库是提前设定好的,内部存储有多种类型的数据。
该实施例中,反馈信息指的是预设数据库对数据采集请求进行解析后,确定的是否同意对内部数据进行采集的决定,具体包括允许采集和不允许采集。
该实施例中,数据标识是用于标记不同类型数据的一种标记标签。
该实施例中,目标采集文本数据指的是最终需要采集的文本数据,且数据量不唯一。
上述技术方案的有益效果是:通过对业务处理任务进行分析,实现对业务处理任务的业务类型进行准确有效的分析,从而便于根据分析结果确定需要采集的文本数据类型,最终根据确定的文本数据类型从预设数据库中采集相应的文本数据,从而便于对获取到的文本数据进行准确有效的聚类处理,保障了对文本数据的聚类效果。
实施例3:
在实施例1的基础上,本实施例提供了一种基于改进蝙蝠算法的文本双聚类方法,S01中,对文本数据进行缓存,包括:
获取采集到的文本数据,并确定对文本数据的分类指标,且将分类指标作为各类数据中心;
确定各文本数据与各类数据中心的汉明距离,且将汉明距离小于预设阈值的子文本数据与对应类数据中心进行捆绑,得到文本数据对应的目标类别;
对各目标类别的文本数据进行统计,确定各目标类别中文本数据的目标数据量,且基于目标类别以及目标数据量在对应预设存储区域划分缓存空间;
基于划分结果将各目标类别的文本数据在对应的缓存空间进行缓存。
该实施例中,分类指标指的是在采集时预期要采集的数据类型,即需要将文本数据划分的数据类型。
该实施例中,各类数据中心指的是每一类文本数据对应的特点,且同一类的文本数据都具有相同的数据特点。
该实施例中,汉明距离是用于表征各文本数据与数据中心之间的空间距离,空间距离越小,表明当前文本数据越属于当前数据中心。
该实施例中,预设阈值时提前设定好的,用于为衡量文本数据是否为当前数据中心提供分类标准,是可以进行修改的。
该实施例中,目标类别指的是将文本数据进行分类后得到的每一类文本数据。
该实施例中,目标数据量指的是每一类文本数据中包含的数据个数。
该实施例中,预设存储区域指的是用于对文本数据进行缓存的存储空间,且每一类文本数据对应一个预设存储区域。
上述技术方案的有益效果是:通过对采集到的文本数据根据分类指标进行分类,并确定每一目标类别中包含的文本数据的目标数据量,实现根据目标数据量为文本数据划分存储空间,从而实现将采集到的文本数据进行准确可靠的存储,为实现对文本数据进行双聚类提供了便利与保障。
实施例4:
在实施例1的基础上,本实施例提供了一种基于改进蝙蝠算法的文本双聚类方法,S02中,基于缓存结果对文本数据进行预处理,并基于预处理结果构建标准化词文本共现矩阵,包括:
获取缓存到的文本数据,并对文本数据进行分词,得到文本数据中包含的N个文本词,且分别提取各文本词的数据特征;
基于数据特征确定各文本词的词汇类型,并基于词汇类型确定各文本词中的目标连接词以及目标内容词;
确定目标连接词的第一数量,并基于第一数量对目标连接词进行第一移除;
提取目标内容词的特征向量,并基于特征向量对目标内容词进行分类,且基于分类结果确定不同类别中各目标内容词的目标个数;
基于目标个数确定低频目标内容词,并基于目标个数对低频内容词进行第二移除。
该实施例中,分词指的是将文本数据拆分为多个词汇的形式。
该实施例中,文本词指的是将文本数据进行分词后得到的多个词汇。
该实施例中,数据特征指的是各文本词对应的具体语义内容。
该实施例中,目标连接词指的是文本词用于连接前后词汇的分词,具体可以是“和”、“或”等。
该实施例中,目标内容词指的是文本词中能够表征文本内容的词汇信息,即能够代表文本数据主旨的词汇。
该实施例中,第一数据量指的是文本数据中包含的目标连接词的数量。
该实施例中,第一移除指的是对文本数据中的目标连接词进行剔除。
该实施例中,特征向量指的是各目标内容词对应的数据取值以及目标内容词对应的词汇意义。
该实施例中,目标个数指的是每一类中目标内容词的数量。
该实施例中,基于目标个数确定低频目标内容词指的是根据不同种类的内容词出现的频率或是次数确定的不经常出现的内容词。
该实施例中,第二移除指的是对文本数据中包含的低频目标内容词进行剔除。
上述技术方案的有益效果是:通过对获取到的文本数据进行分词,并根据分词结果确定文本数据中包含的目标连接词以及目标内容词,且对目标连接词进行第一移除,同时,通过对目标内容词进行分析,实现对文本数据中包含的低频目标内容词进行确认,从而实现对低频目标内容词进行第二移除,确保获取到的文本数据的有效性,从而保障了对文本数据进行双聚类的效率以及准确率。
实施例5:
在实施例4的基础上,本实施例提供了一种基于改进蝙蝠算法的文本双聚类方法,如图2所示,基于第一数量对目标连接词进行第一移除以及基于目标个数对低频内容词进行第二移除后,包括:
获取对文本数据对应的文本词进行第一移除和第二移除后得到的目标词集合,并提取目标词集合中的各文本词的特征词汇向量;
基于特征词汇向量确定目标词集合中的题干,并将目标词集合中除题干外其他的文本词组合成目标表达式W;
将目标表达式W转换为数字形式,并基于数字形式确定加权文本向量,且基于加权文本向量构建标准化词文本共现矩阵。
该实施例中,目标词集合指的是对文本数据对应的文本词中的连接词以及低频词进行提出后得到的词集合。
该实施例中,特征词汇向量指的是目标词集合中各文本词的语义内容。
该实施例中,目标表达式W指的是将目标词集合中除题干外的文本词进行组合后得到的数据展示结果,便于对剩余数据进行处理,从而生成对应的标准化词文本共现矩阵。
该实施例中,数字形式指的是将目标表达式W转换为对应的阿拉伯数字,从而便于将文本数据转换为对应的标准化词文本共现矩阵。
该实施例中,加权文本向量是用于表征不同文本词在目标词集合中的重要程度,从而便于根据各文本词的重要程度准确生成相应的标准化词文本共现矩阵。
上述技术方案的有益效果是:通过对文本数据中的连接词以及低频词进行剔除后得到的目标词集合分析,实现对目标词集合的题干进行准确可靠的提取,其次,通过根据题干提取结果,将剩余的文本词采用目标表达式进行组合,从而便于将文本词转换为相应的数字形式,最后通过确定加权文本向量,实现对标准化词文本共现矩阵进行准确有效的构建,为实现对文本数据进行准确有效的双聚类体提供了便利与保障,确保了对文本数据的双聚类的准确性。
实施例6:
在实施例5的基础上,本实施例提供了一种基于改进蝙蝠算法的文本双聚类方法,基于特征词汇向量确定目标词集合中的题干,包括:
获取目标词集合中的各文本词的特征词汇向量,同时,确定目标词集合的目标主题,并基于目标主题以及特征词汇向量确定目标词集合中的各文本词相对目标主题的归属权重值;
构建题干提取模型,并基于归属权重值对题干提取模型进行训练,得到目标题干提取模型;
将目标词集合中的各文本词的特征词汇向量输入题干提取模型,得到特征词汇集合,并基于特征词汇结合确定目标词集合的题干。
该实施例中,目标主题指的是目标词集合对应的数据类型等。
该实施例中,归属权重值是用于表征各文本词从属目标主题的程度,取值越大,表明文本词与目标主题越相似。
该实施例中,目标题干提取模型是对构建的题干提取模型进行训练后得到的,用于对目标词集合中的各文本词进行分析,确定文本词与目标主题的相似距离。
该实施例中,特征词集合指的是目标词集合中与目标词集合的目标主题靠近的所有文本词。
上述技术方案的有益效果是:通过确定目标词集合的目标主题,同时,通过对文本词的特征词汇向量以及目标主题进行分析,实现对各个文本词的归属权重值进行准确有效的分析,最后,通过归属权重值训练题干提取模型,并根据训练结果对不同文本词的特征词汇向量进行分析处理,实现对目标词集合的题干进行准确有效的获取,从而为实现构建标准化词文本共现矩阵提供了便利与保障。
实施例7:
在实施例1的基础上,本实施例提供了一种基于改进蝙蝠算法的文本双聚类方法,如图3所示,S03中,基于改进的蝙蝠算法对标准化词文本共现矩阵进行分析,得到文本数据的双聚类结果,包括:
S31:获取得到的标准化词文本共现矩阵,并基于预设聚类算法对标准化词文本共现矩阵进行聚类,得到a个行簇和b个列簇,且将a个行簇和b个列簇进行组合,得到a*b个双聚类;
S32:基于长度为N+M的二进制字符串对a*b个双聚类进行编码;
S33:确定基于蝙蝠算法对编码后的文本数据的初始检索速度,并基于动态递减惯性权重对初始检索速度进行更新,且基于更新结果通过位翻转变异算子对a*b个双聚类编码进行局部搜索,得到初始双聚类结果;
S34:重复S32-S33直至完成规定的迭代次数,输出最终的双聚类结果。
该实施例中,预设聚类算法可以是K-means算法。
该实施例中,a个行簇指的是将标准化词文本共现矩阵各行进行聚类后得到对行的聚类类别个数。
该实施例中,b个列簇指的是将标准化词文本共现矩阵各列进行聚类后得到对列的聚类类别个数。
该实施例中,N和M分别表示标准化词文本共现矩阵中包含的行数和列数。
该实施例中,基于长度为N+M的二进制字符串对a*b个双聚类进行编码目的是为了通过改进的蝙蝠算法对文本数据进行局部搜索,从而实现对文本数据进行高效的双聚类。
该实施例中,初始双聚类结果指的是对编码后的文本数据进行一次迭代后得到的聚类结果,该结果不是最终需要的双聚类结果。
该实施例中,初始检索速度指的是通过蝙蝠算法对文本数据的编码结果进行搜索的速度。
该实施例中,确定基于蝙蝠算法对编码后的文本数据的初始检索速度,并基于动态递减惯性权重对初始检索速度进行更新指的是蝙蝠算法对文本数据的编码结果进行搜索,但因蝙蝠算法有较大的惯性权重,适合进行全局搜索,故通过动态递减惯性权重对蝙蝠算法的惯性权重进行递减,从而实现通过改进后的蝙蝠算法对文本数据进行局部的搜索。
该实施例中,翻转变异算子是提前设定好的,目的是为了在局部搜索时确定最优解。
上述技术方案的有益效果是:通过对标准化词文本共现矩阵进行聚类,实现对文本数据中包含的双聚类个数进行准确有效的获取,其次,通过根据标准化词文本共现矩阵的行数和列数的长度将标准化词文本共现矩阵转换为对应的编码形式,最后通过改进的蝙蝠算法对编码后的文本数据进行局部搜索,从而保障了对文本数据进行高效的聚类,保障了对文本数据的双聚类的准确率,提高了对文本数据包含的信息的使用率。
实施例8:
在实施例7的基础上,本实施例提供了一种基于改进蝙蝠算法的文本双聚类方法,S34中,重复S32-S33直至完成规定的迭代次数,输出最终的双聚类结果,包括:
获取对标准化词文本共现矩阵中行簇和列簇进行组合后得到的双聚类的个数,并基于双聚类的个数确定对标准化词文本共现矩阵迭代总次数;
实时监测对标准化词文本共现矩阵的当前迭代次数,并将当前迭代次数与迭代总次数进行比较;
若当前迭代次数大于或等于迭代总次数,则输出文本数据的双聚类结果;
否则,重复步骤S32-S33,直至当前迭代次数大于或等于迭代总次数。
该实施例中,迭代总次数指的是需要对双聚类进行分析和信息提取的次数,是可以根据具体情况进行调整的。
上述技术方案的有益效果是:通过对标准化词文本共现矩阵的当前迭代次数进行实时监测,并将监测结果与设定好的迭代总次数进行比较,从而实现对文本数据进行准确有效的分析和搜索,保障了对文本数据的双聚类效果,同时,保障了对文本数据进行高效的聚类,提高对聚类信息的使用率。
实施例9:
在实施例7的基础上,本实施例提供了一种基于改进蝙蝠算法的文本双聚类方法,输出最终的双聚类结果,包括:
获取对文本数据的双聚类结果,并基于双聚类结果确定文本数据中的局部信息,且基于双聚类结果确定局部信息之间的目标关联;
基于目标关联确定文本数据包含的目标子数据类别,同时,统计目标子数据类别的类别个数以及类别属性,并基于类别个数以及类别属性从预设记录模板库中匹配目标记录模板;
将目标子数据类别在目标记录模板中进行记录,得到最终的双聚类结果报表。
该实施例中,局部信息指的是文本数据中包含的细小细节,即文本数据包含的具体的细节内容。
该实施例中,目标关联指的是文本数据中局部信息之间的关联关系,具体可以是两个局部信息或者更多局部信息之间的兼容或从属关系。
该实施例中,目标子数据类别指的是对文本数据进行局部搜索后,得到的文本数据中属于同一类的文本数据,每一类文本数据则对应一个目标子数据类别。
该实施例中,类别属性指的是不同目标子数据类别对应的种类。
该实施例中,预设记录模板库是提前设定好的,包含多种不同的记录模板。
该实施例中,目标记录模板指的是适用于对当前目标子类别以及包含的文本数据进行记录的模板。
上述技术方案的有益效果是:通过获取对文本数据的双聚类结果,实现对文本数据中包含的目标子类别数据的个数以及属性进行准确有效的获取,并根据目标子类别的个数以及类别属性从预设记录模板库中匹配对应的目标记录模板,实现通过目标记录模板对最终的双聚类结果进行记录,保障了对文本数据的双聚类效果,提高了对文本数据的信息使用率。
实施例10:
在实施例9的基础上,本实施例提供了一种基于改进蝙蝠算法的文本双聚类方法,得到最终的双聚类结果报表,包括:
获取得到的双聚类结果报表,并基于双聚类结果报表提取每一类别的第一特征;
同时,提取每一类别中包含的文本数据的第二特征,并确定第一特征与第二特征的相似度;
将相似度与预设相似度进行比较;
若相似度大于或等于预设相似度,判定对文本数据的双聚类无误,完成对文本数据的双聚类;
否则,判定对文本数据的双聚类有误,并重新文本数据进行双聚类操作。
该实施例中,第一特征指的是每一类别的文本数据对应的数据种类等。
该实施例中,第二特征指的是每一类别中包含的文本数据数据类型。
该实施例中,预设相似度是提前设定好的,用于衡量每一类别中包含的文本数据与当前类别是否相同,从而实现对双聚类结果的校验。
上述技术方案的有益效果是:通过分别确定每一类别的特征和每一类别中包含的文本数据的特征,实现对每一类别和每一类别中包含的文本数据的从属关系进行校验,从而保障了对文本数据的双聚类效果。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.基于改进蝙蝠算法的文本双聚类方法,其特征在于,包括:
S01:采集文本数据,并对文本数据进行缓存;
S02:基于缓存结果对文本数据进行预处理,并基于预处理结果构建标准化词文本共现矩阵;
S03:基于改进的蝙蝠算法对标准化词文本共现矩阵进行分析,得到文本数据的双聚类结果。
2.根据权利要求1所述的一种基于改进蝙蝠算法的文本双聚类方法,其特征在于,S01中,采集文本数据,包括:
获取业务处理任务,并对业务处理任务进行解析,确定业务处理任务对应的目标属性;
基于目标属性确定待采集文本数据类型集,并基于待采集文本类型集生成数据采集请求,且将数据采集请求传输至预设数据库,并实时接收预设数据库对数据采集请求的反馈信息;
当反馈信息为允许采集时,对预设数据库中各预设数据进行检索,提取各预设数据的数据标识,并将数据标识与待采集文本数据类型集进行匹配,且基于匹配结果得到目标采集文本数据,并将目标采集文本数据反馈至数据采集终端。
3.根据权利要求1所述的一种基于改进蝙蝠算法的文本双聚类方法,其特征在于,S01中,对文本数据进行缓存,包括:
获取采集到的文本数据,并确定对文本数据的分类指标,且将分类指标作为各类数据中心;
确定各文本数据与各类数据中心的汉明距离,且将汉明距离小于预设阈值的子文本数据与对应类数据中心进行捆绑,得到文本数据对应的目标类别;
对各目标类别的文本数据进行统计,确定各目标类别中文本数据的目标数据量,且基于目标类别以及目标数据量在对应预设存储区域划分缓存空间;
基于划分结果将各目标类别的文本数据在对应的缓存空间进行缓存。
4.根据权利要求1所述的一种基于改进蝙蝠算法的文本双聚类方法,其特征在于,S02中,基于缓存结果对文本数据进行预处理,并基于预处理结果构建标准化词文本共现矩阵,包括:
获取缓存到的文本数据,并对文本数据进行分词,得到文本数据中包含的N个文本词,且分别提取各文本词的数据特征;
基于数据特征确定各文本词的词汇类型,并基于词汇类型确定各文本词中的目标连接词以及目标内容词;
确定目标连接词的第一数量,并基于第一数量对目标连接词进行第一移除;
提取目标内容词的特征向量,并基于特征向量对目标内容词进行分类,且基于分类结果确定不同类别中各目标内容词的目标个数;
基于目标个数确定低频目标内容词,并基于目标个数对低频内容词进行第二移除。
5.根据权利要求4所述的一种基于改进蝙蝠算法的文本双聚类方法,其特征在于,基于第一数量对目标连接词进行第一移除以及基于目标个数对低频内容词进行第二移除后,包括:
获取对文本数据对应的文本词进行第一移除和第二移除后得到的目标词集合,并提取目标词集合中的各文本词的特征词汇向量;
基于特征词汇向量确定目标词集合中的题干,并将目标词集合中除题干外其他的文本词组合成目标表达式W;
将目标表达式W转换为数字形式,并基于数字形式确定加权文本向量,且基于加权文本向量构建标准化词文本共现矩阵。
6.根据权利要求5所述的一种基于改进蝙蝠算法的文本双聚类方法,其特征在于,基于特征词汇向量确定目标词集合中的题干,包括:
获取目标词集合中的各文本词的特征词汇向量,同时,确定目标词集合的目标主题,并基于目标主题以及特征词汇向量确定目标词集合中的各文本词相对目标主题的归属权重值;
构建题干提取模型,并基于归属权重值对题干提取模型进行训练,得到目标题干提取模型;
将目标词集合中的各文本词的特征词汇向量输入题干提取模型,得到特征词汇集合,并基于特征词汇结合确定目标词集合的题干。
7.根据权利要求1所述的一种基于改进蝙蝠算法的文本双聚类方法,其特征在于,S03中,基于改进的蝙蝠算法对标准化词文本共现矩阵进行分析,得到文本数据的双聚类结果,包括:
S31:获取得到的标准化词文本共现矩阵,并基于预设聚类算法对标准化词文本共现矩阵进行聚类,得到a个行簇和b个列簇,且将a个行簇和b个列簇进行组合,得到a*b个双聚类;
S32:基于长度为N+M的二进制字符串对a*b个双聚类进行编码;
S33:确定基于蝙蝠算法对编码后的文本数据的初始检索速度,并基于动态递减惯性权重对初始检索速度进行更新,且基于更新结果通过位翻转变异算子对a*b个双聚类编码进行局部搜索,得到初始双聚类结果;
S34:重复S32-S33直至完成规定的迭代次数,输出最终的双聚类结果。
8.根据权利要求7所述的一种基于改进蝙蝠算法的文本双聚类方法,其特征在于,S34中,重复S32-S33直至完成规定的迭代次数,输出最终的双聚类结果,包括:
获取对标准化词文本共现矩阵中行簇和列簇进行组合后得到的双聚类的个数,并基于双聚类的个数确定对标准化词文本共现矩阵迭代总次数;
实时监测对标准化词文本共现矩阵的当前迭代次数,并将当前迭代次数与迭代总次数进行比较;
若当前迭代次数大于或等于迭代总次数,则输出文本数据的双聚类结果;
否则,重复步骤S32-S33,直至当前迭代次数大于或等于迭代总次数。
9.根据权利要求7所述的一种基于改进蝙蝠算法的文本双聚类方法,其特征在于,输出最终的双聚类结果,包括:
获取对文本数据的双聚类结果,并基于双聚类结果确定文本数据中的局部信息,且基于双聚类结果确定局部信息之间的目标关联;
基于目标关联确定文本数据包含的目标子数据类别,同时,统计目标子数据类别的类别个数以及类别属性,并基于类别个数以及类别属性从预设记录模板库中匹配目标记录模板;
将目标子数据类别在目标记录模板中进行记录,得到最终的双聚类结果报表。
10.根据权利要求9所述的一种基于改进蝙蝠算法的文本双聚类方法,其特征在于,得到最终的双聚类结果报表,包括:
获取得到的双聚类结果报表,并基于双聚类结果报表提取每一类别的第一特征;
同时,提取每一类别中包含的文本数据的第二特征,并确定第一特征与第二特征的相似度;
将相似度与预设相似度进行比较;
若相似度大于或等于预设相似度,判定对文本数据的双聚类无误,完成对文本数据的双聚类;
否则,判定对文本数据的双聚类有误,并重新文本数据进行双聚类操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211349967.1A CN115599917A (zh) | 2022-10-31 | 2022-10-31 | 基于改进蝙蝠算法的文本双聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211349967.1A CN115599917A (zh) | 2022-10-31 | 2022-10-31 | 基于改进蝙蝠算法的文本双聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115599917A true CN115599917A (zh) | 2023-01-13 |
Family
ID=84850581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211349967.1A Pending CN115599917A (zh) | 2022-10-31 | 2022-10-31 | 基于改进蝙蝠算法的文本双聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115599917A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116776175A (zh) * | 2023-08-24 | 2023-09-19 | 中国空气动力研究与发展中心计算空气动力研究所 | 一种基于层次聚类的数据标签体系构建方法及系统 |
-
2022
- 2022-10-31 CN CN202211349967.1A patent/CN115599917A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116776175A (zh) * | 2023-08-24 | 2023-09-19 | 中国空气动力研究与发展中心计算空气动力研究所 | 一种基于层次聚类的数据标签体系构建方法及系统 |
CN116776175B (zh) * | 2023-08-24 | 2023-11-24 | 中国空气动力研究与发展中心计算空气动力研究所 | 一种基于层次聚类的数据标签体系构建方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200104635A1 (en) | Invertible text embedding for lexicon-free offline handwriting recognition | |
CN111597328B (zh) | 一种新事件主题提取方法 | |
CN111090763A (zh) | 一种图片自动标签方法及装置 | |
CN112836509A (zh) | 一种专家系统知识库构建方法及系统 | |
CN114579739B (zh) | 文本数据流的话题检测与追踪方法 | |
CN107153670A (zh) | 基于多幅图像融合的视频检索方法及系统 | |
CN111985228A (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
CN112163114B (zh) | 一种基于特征融合的图像检索方法 | |
CN115098690B (zh) | 一种基于聚类分析的多数据文档分类方法及系统 | |
CN114461890A (zh) | 分层多模态的知识产权搜索引擎方法与系统 | |
CN111753514B (zh) | 一种专利申请文本的自动生成方法和装置 | |
CN113836896A (zh) | 一种基于深度学习的专利文本摘要生成方法和装置 | |
CN115203338A (zh) | 一种标签及标签实例推荐方法 | |
CN115599917A (zh) | 基于改进蝙蝠算法的文本双聚类方法 | |
CN115618866A (zh) | 一种工程项目投标文件的段落识别与主题提取方法及系统 | |
CN116610818A (zh) | 一种输变电工程项目知识库的构建方法及系统 | |
Sun et al. | Learning deep semantic attributes for user video summarization | |
CN115146062A (zh) | 融合专家推荐与文本聚类的智能事件分析方法和系统 | |
CN116663536B (zh) | 一种临床诊断标准词的匹配方法及装置 | |
CN116629258B (zh) | 基于复杂信息项数据的司法文书的结构化分析方法及系统 | |
CN116341521A (zh) | 一种基于文本特征的aigc文章辨识系统 | |
CN116644740A (zh) | 一种基于单文本词项凝固度的字典自动抽取方法与系统 | |
CN114492425B (zh) | 采用一套领域标签体系将多维度数据打通的方法 | |
CN113326371B (zh) | 一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法 | |
CN115600602A (zh) | 一种长文本的关键要素抽取方法、系统及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |