CN117688354A - 一种基于进化算法的文本特征选择方法及系统 - Google Patents

一种基于进化算法的文本特征选择方法及系统 Download PDF

Info

Publication number
CN117688354A
CN117688354A CN202410139403.8A CN202410139403A CN117688354A CN 117688354 A CN117688354 A CN 117688354A CN 202410139403 A CN202410139403 A CN 202410139403A CN 117688354 A CN117688354 A CN 117688354A
Authority
CN
China
Prior art keywords
feature
target
text
population
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410139403.8A
Other languages
English (en)
Other versions
CN117688354B (zh
Inventor
李景
甘克勤
张明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China National Institute of Standardization
Original Assignee
China National Institute of Standardization
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China National Institute of Standardization filed Critical China National Institute of Standardization
Priority to CN202410139403.8A priority Critical patent/CN117688354B/zh
Publication of CN117688354A publication Critical patent/CN117688354A/zh
Application granted granted Critical
Publication of CN117688354B publication Critical patent/CN117688354B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2111Selection of the most significant subset of features by using evolutionary computational techniques, e.g. genetic algorithms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Physiology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于进化算法的文本特征选择方法及系统。该基于进化算法的文本特征选择方法,包括以下步骤:得到文本的特征集合;根据特征集合构成初始种群;分析适应程度评估指数;生成目标种群;分析目标适应度指数;得到新种群;将新种群作为初始种群;重复分析评估初始种群中特征组合的适应程度评估指数到将新种群作为初始种群,当达到预设的迭代次数时停止并输出最佳特征组合。本发明通过重复分析评估初始种群中特征组合的适应程度评估指数到将新种群作为初始种群,当达到预设的迭代次数时停止,从而输出最佳特征组合,达到了高效准确地进行特征选择的效果,解决了现有技术中存在不能高效准确地进行特征选择的问题。

Description

一种基于进化算法的文本特征选择方法及系统
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种基于进化算法的文本特征选择方法及系统。
背景技术
随着互联网的普及,文本数据量急剧增加,如何从海量文本数据中自动提取有用信息成为一项重要任务。文本分类是文本数据挖掘和文本价值探索领域的重要工作。传统的文本分类系统存在特征提取能力弱、分类准确率不高的问题。随着互联网技术的发展,网络成为人们进行信息交互和处理的有效平台,各种数字化的信息每天以极高的速度增长。面对如此巨大的信息,人工分类选择已经无能为力,计算机自动分类已成为网络时代的必然选择。文本特征选择是文本挖掘中的关键步骤,其目的是从原始文本中选取具有较高分类性能的特征,降低文本数据的维度,提高分类准确性和效率。目前,常用的文本特征选择方法有文档频率、信息增益、互信息和特征权等。然而,这些方法在实际应用中存在一定的局限性,如忽视特征之间的相关性、受噪声数据影响较大等。
现有的文本特征选择系统通过计算文本特征的文档频率、信息增益、互信息和特征权等并进行综合分析,将有利于文本分类的文本特征进行选择,实现文本特征选择功能。
例如公告号为:CN106503146B的发明专利公告的一种计算机文本的特征选择方法、分类特征选择方法及系统,包括:步骤S1,对计算机文本进行处理,得到文本的三维特征数据集;步骤S2,计算所述文本的三维特征数据集的重构系数矩阵,并且计算信息熵向量;步骤S3,按照所述信息熵向量以及所述重构系数矩阵计算综合度量指标,并且按照所述综合度量指标从小到大的顺序进行特征选择;以及步骤S4,输出经过特征选择获得的文本特征集。
例如公告号为:CN107016073B的发明专利公告的一种文本分类特征选择方法,包括:获取特征集S和目标类别C,计算特征集S中每一个特征x(i)与目标类别C之间的关联度Rc(x(i)),并按照关联度Rc(x(i))大小对特征集S进行降序排序;计算特征集S中每两个特征之间的冗余度Rx和协同度Sx,结合特征与目标类别之间的关联度Rc(x(i))计算特征的灵敏度Sen,并将其与预先设定的阈值th比较,结合对特征集S的降序排序结果,按照阈值th将特征集S划分为候选集Ssel和排除集Sexc;计算候选集Ssel和排除集Sexc中的特征之间的灵敏度Sen,并将其与预先设定的阈值th比较,按照阈值th对候选集Ssel和排除集Sexc进行调整。
但本申请在实现本申请实施例中发明技术方案的过程中,发现上述技术至少存在如下技术问题:
现有技术中,由于进行文本特征选择时特征数量过多,存在不能高效准确地进行特征选择的问题。
发明内容
本申请实施例通过提供一种基于进化算法的文本特征选择方法及系统,解决了现有技术中,不能高效准确地进行特征选择的问题,实现了准确高效地找出用于文本特征选择的最佳特征。
本申请实施例提供了一种基于进化算法的文本特征选择方法,包括以下步骤:对原始文本数据进行预处理,得到文本的特征集合;根据特征集合构成初始种群;分析初始种群中特征组合的适应程度评估指数,所述适应程度评估指数表示用于评价初始种群中的特征作为文本特征的适合程度的数据;将初始种群的特征组合进行交叉和变异操作,生成目标种群;分析目标种群的目标特征组合的目标适应度指数,所述目标适应度指数表示用于评估目标种群中的特征作为文本特征的适合程度的数据;根据目标适应度指数和适应程度评估指数得到新种群;将新种群作为初始种群;重复分析评估初始种群中特征组合的适应程度评估指数到将新种群作为初始种群,当达到预设的迭代次数时停止,并输出最佳特征组合。
进一步的,所述对原始文本数据进行预处理,得到文本的特征集合的具体过程为:对原始文本数据进行预处理,所述预处理包括文本标准化、分词、去停用词、词性标注和特征选择,并将所有特征构成一个集合,得到文本的特征集合;所述文本标准化用于将文本中的所有字母转换为小写以保证一致性;处理文本中的数字;删除文本中的标点符号、重音符号以及其他变音符号;所述分词用于将连续的字序列按照一定的规范重新组合成词序列;所述去停用词用于将在文本中频繁出现但对于特征选择无实际意义的词从文本中移除;所述词性标注用于将文本中的每个词分配一个词性标签;所述特征选择用于从文本中提取出最能代表文本特性的词或短语。
进一步的,所述适应程度评估指数具体分析过程为:通过计算特征在原始文本出现次数与原始文本特征合集中所有特征出现总次数的比值以及特征在初始种群的特征组合中的特征出现次数与特征组合数量数据的比值,并进行综合分析得到适应程度评估指数。
进一步的,所述目标适应度指数具体分析过程为:通过计算目标特征组合中特征在原始文本出现次数与原始文本特征合集中所有特征出现总次数的比值以及目标特征组合中特征出现次数的比值,并进行综合分析得到目标适应度指数。
进一步的,所述根据目标适应度指数和适应程度评估指数得到新种群的具体过程为:在每一次迭代时,计算初始种群中特征组合的适应程度评估指数和目标种群的目标特征组合的目标适应度指数,将适应程度评估指数和目标适应度指数进行比较,将适应程度评估指数和目标适应度指数中最大指数的保留,并将该指数对应的种群作为新种群。
进一步的,所述当达到预设的迭代次数时停止,并输出最佳特征组合的具体过程为:预设迭代次数为N次,将计算初始种群中特征组合的适应程度评估指数到将新种群作为初始种群过程重复N次,将最后一次重复结束时得到的新种群作为初始种群,该初始种群的特征组合即为最佳特征组合。
进一步的,所述初始种群的具体获取过程为:从特征集合中随机选择一定数量的特征构成特征组合,将一定数量的特征组合构成初始种群;将特征集合中的特征进行编号,,/>表示为特征集合中的特征总数,特征集合表示为/>,从特征集合中随机选择一定数量的特征构成特征组合,将特征组合的特征进行编号,,/>表示为特征组合的特征数量,将特征组合进行编号,/>,/>表示为特征组合总数,第/>个特征组合表示为/>,特征组合构成初始种群,初始种群表示为/>;所述目标种群的相关内容具体为:将目标特征组合进行编号,/>,/>表示为目标特征组合总数,将目标特征组合中的特征进行编号,/>,/>表示目标特征组合中特征总数,第/>个目标特征组合表示为,目标特征组合构成目标种群,目标种群表示为
进一步的,所述适应程度评估指数的具体计算公式为:
,式中,/>表示为适应程度评估指数,表示为第/>个特征组合中第/>个特征的特征在原始文本出现次数,/>,/>表示为特征组合的特征数量,/>,/>表示为特征组合总数,/>表示为原始文本特征合集中所有特征出现总次数,/>表示为第/>个特征组合中第/>个特征在初始种群的特征组合中的特征出现次数,/>表示为特征组合数量数据,/>和/>分别表示为特征在原始文本出现次数和特征出现次数在适应程度评估指数中所占权重比例。
进一步的,所述目标适应度指数的具体计算公式为:
,式中,/>表示为目标适应度指数,表示为第/>个目标特征组合中第/>个特征的目标特征组合中特征在原始文本出现次数,/>,/>表示为目标特征组合总数,/>,/>表示目标特征组合中特征总数,/>表示为原始文本特征合集中所有特征出现总次数,/>表示为第/>个目标特征组合中第/>个特征在初目标种群的目标特征组合中特征出现次数,/>表示为目标特征组合数量数据,/>和/>分别表示为目标特征组合中特征在原始文本出现次数和目标特征组合中特征出现次数在目标适应度指数中所占权重比例。
本申请实施例提供了一种基于进化算法的文本特征选择系统,所述基于进化算法的文本特征选择系统包括:预处理模块、构建模块、适应程度评估指数分析模块、交叉变异模块、目标适应度指数分析模块、新种群模块、更新模块和迭代模块;所述预处理模块:用于对原始文本数据进行预处理,得到文本的特征集合;所述构建模块:用于根据特征集合构成初始种群;所述适应程度评估指数分析模块:用于分析初始种群中特征组合的适应程度评估指数,所述适应程度评估指数表示用于评价初始种群中的特征作为文本特征的适合程度的数据;所述交叉变异模块:用于将初始种群的特征组合进行交叉和变异操作,生成目标种群;所述目标适应度指数分析模块:用于分析目标种群的目标特征组合的目标适应度指数,所述目标适应度指数表示用于评估目标种群中的特征作为文本特征的适合程度的数据;所述新种群模块:用于根据目标适应度指数和适应程度评估指数得到新种群;所述更新模块:用于将新种群作为初始种群;所述迭代模块:用于重复分析评估初始种群中特征组合的适应程度评估指数到将新种群作为初始种群,当达到预设的迭代次数时停止,并输出最佳特征组合。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
1、通过根据特征集合构成初始种群,分析初始种群中特征组合的适应程度评估指数,将初始种群的特征组合进行交叉和变异操作,生成目标种群,分析目标种群的目标特征组合的目标适应度指数,根据目标适应度指数和适应程度评估指数得到新种群,将新种群作为初始种群,重复分析评估初始种群中特征组合的适应程度评估指数到将新种群作为初始种群,当达到预设的迭代次数时停止,从而输出最佳特征组合,进而实现了快速高效地找出最适合用于特征选择的特征,有效解决了现有技术中,不能高效准确地进行特征选择的问题。
2、通过将初始种群的特征组合进行交叉和变异操作,生成目标种群,从而结合了遗传算法的全局搜索能力和文本特征选择技术的局部搜索能力,进而实现了提高特征选择的效率和准确性。
3、通过结合进化算法和文本特征选择,帮助用户从大量的文本数据中自动选择出最有代表性的特征,从而提高文本分类的准确性,进而实现了减少计算资源的消耗以及提高文本分类的效率。
附图说明
图1为本申请实施例提供的基于进化算法的文本特征选择方法流程图;
图2为本申请实施例提供的基于进化算法的文本特征选择系统的结构示意图。
具体实施方式
本申请实施例通过提供一种基于进化算法的文本特征选择方法及系统,解决了现有技术中,不能高效准确地进行特征选择的问题,通过对原始文本数据进行预处理,得到文本的特征集合;根据特征集合构成初始种群;分析初始种群中特征组合的适应程度评估指数,适应程度评估指数表示用于评价初始种群中的特征作为文本特征的适合程度的数据;将初始种群的特征组合进行交叉和变异操作,生成目标种群;分析目标种群的目标特征组合的目标适应度指数,目标适应度指数表示用于评估目标种群中的特征作为文本特征的适合程度的数据;根据目标适应度指数和适应程度评估指数得到新种群;将新种群作为初始种群;重复分析评估初始种群中特征组合的适应程度评估指数到将新种群作为初始种群,当达到预设的迭代次数时停止,并输出最佳特征组合,实现了准确高效地进行文本特征选择。
本申请实施例中的技术方案为解决上述,不能高效准确地进行特征选择的问题,总体思路如下:
通过对原始文本数据进行预处理,预处理包括文本标准化、分词、去停用词、词性标注和特征选择,得到文本的特征集合;根据特征集合构成初始种群;分析初始种群中特征组合的适应程度评估指数,适应程度评估指数表示用于评价初始种群中的特征作为文本特征的适合程度的数据;将初始种群的特征组合进行交叉和变异操作,生成目标种群;分析目标种群的目标特征组合的目标适应度指数,目标适应度指数表示用于评估目标种群中的特征作为文本特征的适合程度的数据;根据目标适应度指数和适应程度评估指数得到新种群;将新种群作为初始种群;重复分析评估初始种群中特征组合的适应程度评估指数到将新种群作为初始种群,当达到预设的迭代次数时停止,并输出最佳特征组合,达到了准确高效地进行文本特征选择的效果。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
如图1所示,为本申请实施例提供的基于进化算法的文本特征选择方法流程图,该方法应用于基于进化算法的文本特征选择系统中,该方法包括以下步骤:对原始文本数据进行预处理,得到文本的特征集合;根据特征集合构成初始种群;分析初始种群中特征组合的适应程度评估指数,适应程度评估指数表示用于评价初始种群中的特征作为文本特征的适合程度的数据;将初始种群的特征组合进行交叉和变异操作,生成目标种群;分析目标种群的目标特征组合的目标适应度指数,目标适应度指数表示用于评估目标种群中的特征作为文本特征的适合程度的数据;根据目标适应度指数和适应程度评估指数得到新种群;将新种群作为初始种群;重复分析评估初始种群中特征组合的适应程度评估指数到将新种群作为初始种群,当达到预设的迭代次数时停止,并输出最佳特征组合。
进一步的,对原始文本数据进行预处理,得到文本的特征集合的具体过程为:对原始文本数据进行预处理,预处理包括文本标准化、分词、去停用词、词性标注和特征选择,并将所有特征构成一个集合,得到文本的特征集合;文本标准化用于将文本中的所有字母转换为小写以保证一致性;处理文本中的数字;删除文本中的标点符号、重音符号以及其他变音符号;分词用于将连续的字序列按照一定的规范重新组合成词序列;去停用词用于将在文本中频繁出现但对于特征选择无实际意义的词从文本中移除;词性标注用于将文本中的每个词分配一个词性标签;特征选择用于从文本中提取出最能代表文本特性的词或短语。
在本实施例中,通过对原始文本数据进行预处理得到全部的特征,将全部特征放进一个集合中,则该集合即为文本的特征集合。
文本预处理是自然语言处理(NLP)中的一个重要环节,它将原始文本数据转换成适合机器分析的格式。这一过程通常包括以下几个步骤:文本标准化、分词、去停用词、词性标注、特征选择、文本表示和向量化。文本标准化:将文本中的所有字母转换为小写以保证一致性。处理文本中的数字,可以选择将其转换为单词或者直接删除,这取决于数字是否与分析相关。删除文本中的标点符号、重音符号以及其他变音符号。分词(Tokenization):分词是将连续的字序列按照一定的规范重新组合成词序列的过程。对于英文文本,这一步骤通常通过空格来划分单词;而对于中文文本,由于没有明显的分界符,需要使用分词工具如jieba来进行分词。去停用词:停用词是指在文本中频繁出现但对于语义贡献较小的词,如“的”、“是”、“在”等。需要将这些词从文本中移除,以减少后续处理的维度和噪音。词性标注:使用分词工具附带的词性标注功能,可以为文本中的每个词分配一个词性标签,有助于后续的特征选择和分析。特征选择:特征选择是从文本中提取出最能代表文本特性的词或短语。常用的方法包括词频(TF)、逆文档频率(IDF)、卡方检验和信息增益等。文本表示:将选定的特征转换为机器可以理解的格式,常见的表示方法有TF-IDF向量、Word2Vec向量、BERT嵌入等。向量化:将文本表示成向量,便于输入到机器学习模型中进行进一步的分析与处理。常见的向量化方法包括词袋模型(BOW)、TF-IDF模型等。
文本特征是指从文本数据中提取的用于后续处理的特性或属性,这些特征能够代表文本的内容、风格、情感等各个方面。在文本分析的不同任务中,如分类、聚类、情感分析、主题建模等,特征的选择和提取至关重要,它们直接影响到模型的性能和效果。
文本特征可以分为几个大类:词汇特征、语法特征、语义特征、上下文特征、文本统计特征和外部特征等。词汇特征:包括单词、短语或n-gram(如二元组、三元组等)。这些是最基本的特征类型,可以直接从文本中tokenize得到。语法特征:包括词性标注、句法结构信息等。这些特征可以帮助模型理解文本的句法结构,对于语言理解和文本分类等任务很有帮助。语义特征:这类特征试图捕捉词语或句子背后的意义,如Word2Vec、GloVe词向量,BERT等预训练模型的嵌入表示。上下文特征:考虑词语或句子的上下文信息,如基于窗口的词嵌入技术,或是更复杂的上下文捕捉方法。文本统计特征:包括词频、词长、句子长度、标点符号使用等。这些特征可以帮助模型捕捉文本的一些基本属性。外部特征:如基于知识的特征,可以是从外部语料库或知识库中获取的信息,如词义消歧、实体识别等。
进一步的,适应程度评估指数具体分析过程为:通过计算特征在原始文本出现次数与原始文本特征合集中所有特征出现总次数的比值以及特征在初始种群的特征组合中的特征出现次数与特征组合数量数据的比值,并进行综合分析得到适应程度评估指数。
在本实施例中,通过对初始种群的相关参数进行计算得到适应程度评估指数,适应程度评估指数表示用于评价初始种群中的特征作为文本特征的适合程度的数据,即适应程度评估指数用于评估具体的特征作为文本特征的适应度。适应程度评估指数可用于判断该适应程度评估指数对应的特征是否适合作为文本特征。
在文本特征选择中,"适应度"通常指的是特征对于区分不同类别的重要性。适应度高的特征对分类任务更有帮助。不同的特征选择算法有不同的适应度计算方式。例如,互信息(MI)特征选择方法:原理:互信息衡量的是词项与类别之间的相关性。它计算的是词项t与文档类别c的互信息MI,MI越大,说明词项t与类别c的相关性越强。计算方式:通过统计词项t在类别c中的出现频率以及在整个数据集中的出现频率,利用最大似然估计来计算互信息。卡方检验(Chi-squared Test)特征选择方法:原理:卡方检验用来度量特征词与类别之间的独立性。如果特征词与类别不独立,则卡方值会较大。计算方式:通过计算特征词在每个类别中的频次,然后利用卡方分布来评估特征词与类别之间的关联性。TF-IDF(TermFrequency-Inverse Document Frequency)特征选择方法:原理:TF-IDF既考虑了词频(Term Frequency,TF),也考虑了逆文档频率(Inverse Document Frequency,IDF),用来衡量一个词对于一个文档集合中一个文档的重要程度。计算方式:TF-IDF的值会随着词项在文本中出现的次数成正比增加,同时会随着它在语料库中出现的频率成反比减少。嵌入式(Embedded)特征选择方法:原理:这类方法将特征选择过程与学习算法结合起来,特征选择依赖于算法的结果。计算方式:如在决策树算法中,特征选择可以是在构建树的过程中选择最佳的分割点。在实际应用中,这些方法可以根据具体的文本分类任务和数据特性进行选择和调整,以达到最佳的分类效果。
进一步的,目标适应度指数具体分析过程为:通过计算目标特征组合中特征在原始文本出现次数与原始文本特征合集中所有特征出现总次数的比值以及目标特征组合中特征出现次数的比值,并进行综合分析得到目标适应度指数。
在本实施例中,通过对目标种群的相关参数进行计算得到目标适应度指数,目标适应度指数表示用于评估目标种群中的特征作为文本特征的适合程度的数据,即目标适应度指数用于评估具体的特征作为文本特征的适应度。目标适应度指数可用于判断该目标适应度指数对应的特征是否适合作为文本特征。
进一步的,根据目标适应度指数和适应程度评估指数得到新种群的具体过程为:在每一次迭代时,计算初始种群中特征组合的适应程度评估指数和目标种群的目标特征组合的目标适应度指数,将适应程度评估指数和目标适应度指数进行比较,将适应程度评估指数和目标适应度指数中最大指数的保留,并将该指数对应的种群作为新种群。
在本实施例中,在每一次迭代时,计算初始种群中特征组合的适应程度评估指数和目标种群的目标特征组合的目标适应度指数,将适应程度评估指数和目标适应度指数进行比较,指数越大表示该指数对应的特征越适合作为文本特征,将适应程度评估指数和目标适应度指数中最大指数的保留,并将该指数对应的种群作为新种群,这样在每一次迭代时都将更加适合作为文本特征的特征对应的种群保留了下来,提高了找到最合适的种群的速度,即提高了找到最佳特征组合的速度。
除了适应程度评估指数和目标适应度指数进行比较,指数越大表示该指数对应的特征越适合作为文本特征,将适应程度评估指数和目标适应度指数中最大指数的保留,并将该指数对应的种群作为新种群,还可通过其他方法得到新种群,例如,构建种群相对适合程度评估指数,具体的种群相对适合程度评估指数计算公式为:
,式中,/>表示为种群相对适合程度评估指数,/>表示为适应程度评估指数,/>表示为目标适应度指数,/>表示为自然常数。种群相对适合程度评估指数表示比较初始种群和目标种群作为新种群的适合程度的数据。
时,表示目标种群比初始种群更加适合作为新种群,将目标种群作为新种群;当/>时,目标种群与初始种群同等程度适合作为新种群,从目标种群和初始种群中任选一个作为新种群;当/>时,表示初始种群比目标种群更加适合作为新种群,将初始种群作为新种群。
进一步的,当达到预设的迭代次数时停止,并输出最佳特征组合的具体过程为:预设迭代次数为N次,将计算初始种群中特征组合的适应程度评估指数到将新种群作为初始种群过程重复N次,将最后一次重复结束时得到的新种群作为初始种群,该初始种群的特征组合即为最佳特征组合。
在本实施例中,预设迭代次数为N次,N次具体为多少次可根据实际情况设定,如当特征集合中的特征数量过多时,可以将N次设为200次或300次;当如当特征集合中的特征数量较少时,可以将N次设为30次或50次。将计算初始种群中特征组合的适应程度评估指数到将新种群作为初始种群过程重复N次,即每次迭代结束时都将当前迭代过程中更加适合作为文本特征的特征对应的种群作为新种群,重复N次后,即在N次迭代过程中找到过N个新种群,并将在最后一次重复结束时得到的新种群作为初始种群,该初始种群的特征组合即为最佳特征组合,特征组合里对应的特征即为最适合用于文本选择的特征。
除了通过上述方法找出最佳特征组合,还可通过其他方式得到最佳特征组合,具体过程为:获取原始文本特征合集中所有特征,将特征均匀划分成三部分,分别为第一部分特征、第二部分特征和第三部分特征,将第一部分特征进行编号,,/>表示为第一部分特征总数,将第二部分特征进行编号,/>,/>表示为第二部分特征总数,将第三部分特征进行编号,/>,/>表示为第三部分特征总数。从第一部分特征、第二部分特征和第三部分特征分别选出一个特征,并计算特征使用符合程度评估指数,特征使用符合程度评估指数的具体计算公式为:
,式中,/>表示为特征使用符合程度评估指数,/>表示为第一部分特征中第/>个特征的第一特征在原始文本使用次数数据,/>表示为第二部分特征中第/>个特征的第二特征在原始文本使用次数数据,/>表示为第三部分特征中第/>个特征的第三特征在原始文本使用次数数据,和/>分别表示为第一特征在原始文本使用次数数据、第二特征在原始文本使用次数数据和第三特征在原始文本使用次数数据在特征使用符合程度评估指数中所占权重比例。特征使用符合程度评估指数表示评估从第一部分特征、第二部分特征和第三部分特征分别选出的一个特征共同用于特征选择的适合程度的数据。
将第一部分特征、第二部分特征和第三部分特征中的特征全部计算出特征使用符合程度评估指数,根据特征使用符合程度评估指数计算特征用于选择符合程度评估指数,特征用于选择符合程度评估指数的具体计算公式为:
,式中,/>表示为特征用于选择符合程度评估指数,表示为特征使用符合程度评估指数。特征用于选择符合程度评估指数表示评估选出的不同特征用于特征选择的符合程度的数据。将所有特征用于选择符合程度评估指数进行从大到小排序,将排在前十的特征用于选择符合程度评估指数对应使用的特征构成一个特征组合,该特征组合即为最佳特征组合。
进一步的,初始种群的具体获取过程为:从特征集合中随机选择一定数量的特征构成特征组合,将一定数量的特征组合构成初始种群;将特征集合中的特征进行编号,,/>表示为特征集合中的特征总数,特征集合表示为/>,从特征集合中随机选择一定数量的特征构成特征组合,将特征组合的特征进行编号,,/>表示为特征组合的特征数量,将特征组合进行编号,/>,/>表示为特征组合总数,第/>个特征组合表示为/>,特征组合构成初始种群,初始种群表示为/>;目标种群的相关内容具体为:将目标特征组合进行编号,/>,/>表示为目标特征组合总数,将目标特征组合中的特征进行编号,/>,/>表示目标特征组合中特征总数,第/>个目标特征组合表示为,目标特征组合构成目标种群,目标种群表示为
在本实施例中,特征集合中的特征数量的多少根据原始文本数据的多少变化,通常情况下,当原始文本数据越多,原始文本数据对应的特征数量越多;反之,原始文本数据越少,原始文本数据对应的特征数量越少。并不是特征集合中的每个特征都可以用于特征选择,因此需要从众多特征中找出最合适的特征用于特征选择。
将初始种群的特征组合进行交叉和变异操作,生成目标种群。交叉操作可以采用交换两个特征的位置、随机选择两个特征进行组合等策略;变异操作可以对特征进行增减、替换等操作。因此在经过交叉和变异操作后,目标种群的目标特征组合数量可能发生改变,需要重新编号,每个目标特征组合中的特征数量也可能发生变化,因此,需要将目标特征组合中的特征重新编号。
进一步的,适应程度评估指数的具体计算公式为:
,式中,/>表示为适应程度评估指数,表示为第/>个特征组合中第/>个特征的特征在原始文本出现次数,/>,/>表示为特征组合的特征数量,/>,/>表示为特征组合总数,/>表示为原始文本特征合集中所有特征出现总次数,/>表示为第/>个特征组合中第/>个特征在初始种群的特征组合中的特征出现次数,/>表示为特征组合数量数据,/>和/>分别表示为特征在原始文本出现次数和特征出现次数在适应程度评估指数中所占权重比例。
在本实施例中,对特征在原始文本出现次数、原始文本特征合集中所有特征出现总次数、特征组合中的特征出现次数和特征组合数量数据进行数据存储、数据清洗和预处理,使得上述数据内容更加准确,有利于计算得到准确性更高的适应程度评估指数,使得适应程度评估指数可以更加准确地分析初始种群中的特征用于特征选择的适合程度。
进一步的,目标适应度指数的具体计算公式为:
式中,/>表示为目标适应度指数,表示为第/>个目标特征组合中第/>个特征的目标特征组合中特征在原始文本出现次数,/>,/>表示为目标特征组合总数,/>,/>表示目标特征组合中特征总数,/>表示为原始文本特征合集中所有特征出现总次数,/>表示为第/>个目标特征组合中第/>个特征在初目标种群的目标特征组合中特征出现次数,/>表示为目标特征组合数量数据,/>和/>分别表示为目标特征组合中特征在原始文本出现次数和目标特征组合中特征出现次数在目标适应度指数中所占权重比例。
在本实施例中,对目标特征组合中特征在原始文本出现次数、原始文本特征合集中所有特征出现总次数、目标特征组合中特征出现次数和目标特征组合数量数据进行数据获取、数据转换、数据存储和数据清洗,使得通过对上述数据进行计算可以得到精确度更高的目标适应度指数,有利于通过目标适应度更加详细地分析目标种群中的特征用于特征选择的适合程度。
如图2所示,为本申请实施例提供的基于进化算法的文本特征选择系统的结构示意图,本申请实施例提供的基于进化算法的文本特征选择系统包括:预处理模块、构建模块、适应程度评估指数分析模块、交叉变异模块、目标适应度指数分析模块、新种群模块、更新模块和迭代模块;预处理模块:用于对原始文本数据进行预处理,得到文本的特征集合;构建模块:用于根据特征集合构成初始种群;适应程度评估指数分析模块:用于分析初始种群中特征组合的适应程度评估指数,适应程度评估指数表示用于评价初始种群中的特征作为文本特征的适合程度的数据;交叉变异模块:用于将初始种群的特征组合进行交叉和变异操作,生成目标种群;目标适应度指数分析模块:用于分析目标种群的目标特征组合的目标适应度指数,目标适应度指数表示用于评估目标种群中的特征作为文本特征的适合程度的数据;新种群模块:用于根据目标适应度指数和适应程度评估指数得到新种群;更新模块:用于将新种群作为初始种群;迭代模块:用于重复分析评估初始种群中特征组合的适应程度评估指数到将新种群作为初始种群,当达到预设的迭代次数时停止,并输出最佳特征组合。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:相对于公告号为:CN106503146B的发明专利公告的一种计算机文本的特征选择方法、分类特征选择方法及系统,本申请实施例通过将初始种群的特征组合进行交叉和变异操作,生成目标种群,从而结合了遗传算法的全局搜索能力和文本特征选择技术的局部搜索能力,进而实现了提高特征选择的效率和准确性;相对于公告号为:CN107016073B的发明专利公告的一种文本分类特征选择方法,本申请实施例通过结合进化算法和文本特征选择,帮助用户从大量的文本数据中自动选择出最有代表性的特征,从而提高文本分类的准确性,进而实现了减少计算资源的消耗以及提高文本分类的效率。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于进化算法的文本特征选择方法,其特征在于,包括以下步骤:
对原始文本数据进行预处理,得到文本的特征集合;
根据特征集合构成初始种群;
分析初始种群中特征组合的适应程度评估指数,所述适应程度评估指数表示用于评价初始种群中的特征作为文本特征的适合程度的数据;
将初始种群的特征组合进行交叉和变异操作,生成目标种群;
分析目标种群的目标特征组合的目标适应度指数,所述目标适应度指数表示用于评估目标种群中的特征作为文本特征的适合程度的数据;
根据目标适应度指数和适应程度评估指数得到新种群;
将新种群作为初始种群;
重复分析评估初始种群中特征组合的适应程度评估指数到将新种群作为初始种群,当达到预设的迭代次数时停止,并输出最佳特征组合。
2.如权利要求1所述基于进化算法的文本特征选择方法,其特征在于,所述对原始文本数据进行预处理,得到文本的特征集合的具体过程为:
对原始文本数据进行预处理,所述预处理包括文本标准化、分词、去停用词、词性标注和特征选择,并将所有特征构成一个集合,得到文本的特征集合;
所述文本标准化用于将文本中的所有字母转换为小写以保证一致性;处理文本中的数字;删除文本中的标点符号、重音符号以及其他变音符号;
所述分词用于将连续的字序列按照一定的规范重新组合成词序列;
所述去停用词用于将在文本中频繁出现但对于特征选择无实际意义的词从文本中移除;
所述词性标注用于将文本中的每个词分配一个词性标签;
所述特征选择用于从文本中提取出最能代表文本特性的词或短语。
3.如权利要求1所述基于进化算法的文本特征选择方法,其特征在于,所述适应程度评估指数具体分析过程为:
通过计算特征在原始文本出现次数与原始文本特征合集中所有特征出现总次数的比值以及特征在初始种群的特征组合中的特征出现次数与特征组合数量数据的比值,并进行综合分析得到适应程度评估指数。
4.如权利要求3所述基于进化算法的文本特征选择方法,其特征在于,所述目标适应度指数具体分析过程为:
通过计算目标特征组合中特征在原始文本出现次数与原始文本特征合集中所有特征出现总次数的比值以及目标特征组合中特征出现次数的比值,并进行综合分析得到目标适应度指数。
5.如权利要求1所述基于进化算法的文本特征选择方法,其特征在于,所述根据目标适应度指数和适应程度评估指数得到新种群的具体过程为:
在每一次迭代时,计算初始种群中特征组合的适应程度评估指数和目标种群的目标特征组合的目标适应度指数,将适应程度评估指数和目标适应度指数进行比较,将适应程度评估指数和目标适应度指数中最大指数的保留,并将该指数对应的种群作为新种群。
6.如权利要求1所述基于进化算法的文本特征选择方法,其特征在于,所述当达到预设的迭代次数时停止,并输出最佳特征组合的具体过程为:
预设迭代次数为N次,将计算初始种群中特征组合的适应程度评估指数到将新种群作为初始种群过程重复N次,将最后一次重复结束时得到的新种群作为初始种群,该初始种群的特征组合即为最佳特征组合。
7.如权利要求4所述基于进化算法的文本特征选择方法,其特征在于,所述初始种群的具体获取过程为:
从特征集合中随机选择一定数量的特征构成特征组合,将一定数量的特征组合构成初始种群;
将特征集合中的特征进行编号,,/>表示为特征集合中的特征总数,特征集合表示为/>,从特征集合中随机选择一定数量的特征构成特征组合,将特征组合的特征进行编号,/>,/>表示为特征组合的特征数量,将特征组合进行编号,/>,/>表示为特征组合总数,第/>个特征组合表示为,特征组合构成初始种群,初始种群表示为
所述目标种群的相关内容具体为:
将目标特征组合进行编号,,/>表示为目标特征组合总数,将目标特征组合中的特征进行编号,/>,/>表示目标特征组合中特征总数,第/>个目标特征组合表示为/>,目标特征组合构成目标种群,目标种群表示为
8.如权利要求1所述基于进化算法的文本特征选择方法,其特征在于,所述适应程度评估指数的具体计算公式为:
式中,表示为适应程度评估指数,/>表示为第/>个特征组合中第/>个特征的特征在原始文本出现次数,/>,/>表示为特征组合的特征数量,/>,/>表示为特征组合总数,/>表示为原始文本特征合集中所有特征出现总次数,/>表示为第/>个特征组合中第/>个特征在初始种群的特征组合中的特征出现次数,/>表示为特征组合数量数据,/>和/>分别表示为特征在原始文本出现次数和特征出现次数在适应程度评估指数中所占权重比例。
9.如权利要求1所述基于进化算法的文本特征选择方法,其特征在于,所述目标适应度指数的具体计算公式为:
式中,表示为目标适应度指数,/>表示为第/>个目标特征组合中第/>个特征的目标特征组合中特征在原始文本出现次数,/>,/>表示为目标特征组合总数,,/>表示目标特征组合中特征总数,/>表示为原始文本特征合集中所有特征出现总次数,/>表示为第/>个目标特征组合中第/>个特征在初目标种群的目标特征组合中特征出现次数,/>表示为目标特征组合数量数据,/>和/>分别表示为目标特征组合中特征在原始文本出现次数和目标特征组合中特征出现次数在目标适应度指数中所占权重比例。
10.一种基于进化算法的文本特征选择系统,其特征在于,所述基于进化算法的文本特征选择系统包括:预处理模块、构建模块、适应程度评估指数分析模块、交叉变异模块、目标适应度指数分析模块、新种群模块、更新模块和迭代模块;
所述预处理模块:用于对原始文本数据进行预处理,得到文本的特征集合;
所述构建模块:用于根据特征集合构成初始种群;
所述适应程度评估指数分析模块:用于分析初始种群中特征组合的适应程度评估指数,所述适应程度评估指数表示用于评价初始种群中的特征作为文本特征的适合程度的数据;
所述交叉变异模块:用于将初始种群的特征组合进行交叉和变异操作,生成目标种群;
所述目标适应度指数分析模块:用于分析目标种群的目标特征组合的目标适应度指数,所述目标适应度指数表示用于评估目标种群中的特征作为文本特征的适合程度的数据;
所述新种群模块:用于根据目标适应度指数和适应程度评估指数得到新种群;
所述更新模块:用于将新种群作为初始种群;
所述迭代模块:用于重复分析评估初始种群中特征组合的适应程度评估指数到将新种群作为初始种群,当达到预设的迭代次数时停止,并输出最佳特征组合。
CN202410139403.8A 2024-02-01 2024-02-01 一种基于进化算法的文本特征选择方法及系统 Active CN117688354B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410139403.8A CN117688354B (zh) 2024-02-01 2024-02-01 一种基于进化算法的文本特征选择方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410139403.8A CN117688354B (zh) 2024-02-01 2024-02-01 一种基于进化算法的文本特征选择方法及系统

Publications (2)

Publication Number Publication Date
CN117688354A true CN117688354A (zh) 2024-03-12
CN117688354B CN117688354B (zh) 2024-04-26

Family

ID=90135654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410139403.8A Active CN117688354B (zh) 2024-02-01 2024-02-01 一种基于进化算法的文本特征选择方法及系统

Country Status (1)

Country Link
CN (1) CN117688354B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020046198A1 (en) * 2000-06-19 2002-04-18 Ben Hitt Heuristic method of classification
WO2007147166A2 (en) * 2006-06-16 2007-12-21 Quantum Leap Research, Inc. Consilence of data-mining
US8010614B1 (en) * 2007-11-01 2011-08-30 Bitdefender IPR Management Ltd. Systems and methods for generating signatures for electronic communication classification
CN104809229A (zh) * 2015-05-07 2015-07-29 北京京东尚科信息技术有限公司 一种文本特征词提取方法及系统
CN109508374A (zh) * 2018-11-19 2019-03-22 云南电网有限责任公司信息中心 基于遗传算法的文本数据半监督聚类方法
CN110991518A (zh) * 2019-11-28 2020-04-10 山东大学 一种基于进化多任务的两阶段特征选择方法及系统
CN112612886A (zh) * 2020-12-18 2021-04-06 湖北工业大学 一种基于水稻育种-二进制蚁群混合算法的文本特征选择方法
CN112800224A (zh) * 2021-01-28 2021-05-14 中南大学 基于改进蝙蝠算法的文本特征选择方法、装置及存储介质
CN117349243A (zh) * 2023-10-19 2024-01-05 中国标准化研究院 一种标准文件档案一体化管理的编码与展示方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020046198A1 (en) * 2000-06-19 2002-04-18 Ben Hitt Heuristic method of classification
WO2007147166A2 (en) * 2006-06-16 2007-12-21 Quantum Leap Research, Inc. Consilence of data-mining
US8010614B1 (en) * 2007-11-01 2011-08-30 Bitdefender IPR Management Ltd. Systems and methods for generating signatures for electronic communication classification
CN104809229A (zh) * 2015-05-07 2015-07-29 北京京东尚科信息技术有限公司 一种文本特征词提取方法及系统
CN109508374A (zh) * 2018-11-19 2019-03-22 云南电网有限责任公司信息中心 基于遗传算法的文本数据半监督聚类方法
CN110991518A (zh) * 2019-11-28 2020-04-10 山东大学 一种基于进化多任务的两阶段特征选择方法及系统
CN112612886A (zh) * 2020-12-18 2021-04-06 湖北工业大学 一种基于水稻育种-二进制蚁群混合算法的文本特征选择方法
CN112800224A (zh) * 2021-01-28 2021-05-14 中南大学 基于改进蝙蝠算法的文本特征选择方法、装置及存储介质
CN117349243A (zh) * 2023-10-19 2024-01-05 中国标准化研究院 一种标准文件档案一体化管理的编码与展示方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WENWEN XU 等: ""Texture Extraction of Steel Surface Defects Using Adaptive Optimized Gabor Filter with Improved Genetic Algorithm"", 2022 7TH INTERNATIONAL CONFERENCE ON INTELLIGENT COMPUTING AND SIGNAL PROCESSING (ICSP), 24 May 2022 (2022-05-24) *
张伟 等: ""金融文本特征挖掘及动态融合因子策略研究"", 《计算机工程与应用》, vol. 59, no. 8, 30 April 2022 (2022-04-30) *

Also Published As

Publication number Publication date
CN117688354B (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
CN109960724B (zh) 一种基于tf-idf的文本摘要方法
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
CN110704621B (zh) 文本处理方法、装置及存储介质和电子设备
CN109902159A (zh) 一种基于自然语言处理的智能运维语句相似度匹配方法
CN108519971B (zh) 一种基于平行语料库的跨语种新闻主题相似性对比方法
CN108549634A (zh) 一种中文专利文本相似度计算方法
CN111414481A (zh) 基于拼音和bert嵌入的中文语义匹配方法
CN111428490B (zh) 一种利用语言模型的指代消解弱监督学习方法
TW201841121A (zh) 一種自動生成語義相近句子樣本的方法
CN109993216B (zh) 一种基于k最近邻knn的文本分类方法及其设备
CN111881256B (zh) 文本实体关系抽取方法、装置及计算机可读存储介质设备
CN112818110B (zh) 文本过滤方法、设备及计算机存储介质
CN112232087A (zh) 一种基于Transformer的多粒度注意力模型的特定方面情感分析方法
CN112667979B (zh) 密码生成方法及装置、密码识别方法及装置、电子设备
CN116756347B (zh) 一种基于大数据的语义信息检索方法
WO2023130687A1 (zh) 一种自然语言处理方法、装置、设备及可读存储介质
CN110866087B (zh) 一种基于主题模型的面向实体的文本情感分析方法
CN115544999A (zh) 一种面向领域的并行大规模文本查重方法
CN116362243A (zh) 一种融入句子间关联关系的文本关键短语提取方法、存储介质及装置
CN106815209B (zh) 一种维吾尔文农业技术术语识别方法
CN110019556B (zh) 一种话题新闻获取方法、装置及其设备
CN113535960A (zh) 一种文本分类方法、装置和设备
CN110377753B (zh) 基于关系触发词与gru模型的关系抽取方法及装置
CN117271701A (zh) 一种基于tggat和cnn的系统运行异常事件关系抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant